データクオリティパネル クロディア・ミューラービン、 ルーカス・ウェアミニスター ホゼ・エミリオ・ラビラ・ガヤ、 クリスティナ・サラスナ、アンドレア・ データクオリティパネルの皆さん こんにちは 多くの人が私たちのデータが正しいことを 頼るのでデータクオリティは重要です だからデータクオリティについて 話し合いましょう 4人の講演者は データクオリティについて短い紹介をし その後で質疑を行います ではまずルーカスから ありがとう ルーカスです まずウィキデータに既にある データクオリティツールと 開発されていて公開マジかなものについての 概要から始めます いくつかのテーマの グループに分けました エラーを見つけやすくする 問題に対処しやすくする データにより検証し 問題に気づきやすくする 一般的なエラーの元を修正する 既存のデータの質を維持する そして人によるキューレーション そして現在利用可能なものは プロパティの拘束からです ウィキデータで これを見たことがあると思います このような 内部のデータの均一性をチェックする アイコンが出ることがあるでしょう 例えば あるイベントが他に続くなら 他のイベントもこのイベントに 続くべきです このWikidataConの項目では それが見られません この機能はできてまだ数日かも しれません あるいはこれが制限しすぎだったり 簡単すぎなら Query Service を使って チェックを自分で書くこともできます もちろんQuery Serviceは 多くのことに有効ですが エラーを見つけることもできます ひとつ間違いを見つけたら 他の場所もチェックし 他の人が同じエラーをしていないか Query Serviceで見つけられます あるいは2つを組み合わせて 拘束違反を Query Serviceで探せます 例えば ある部分にだけあるエラーや WikiProjectの あなたの関連した部分だけのエラーなどです でも残念なことに その結果は現在のところ完全ではありません 改訂スコアリングもあります これは最近の変更からだけ思いますが 自動アセスメントのウォッチリストに入れて その編集が誠実なものかどうか また被害を与えるものかどうかを 見ることができます これは2次元だと思います だから被害を与えるけど 誠実なものかどうかに注目して 特に友好的な気分なら これらの編集者に 「貢献してくれてありがとう 次回はこのようにしてください」など… でもそうでなければ 誠実でないものや 被害を与えるものを 元に戻すこともできます 似たものに エンティティ・スコアリングがあり これは変更が加えられた 編集をスコアリングするのはなく 全体の改訂をスコアリングします これにはリディアは会議の当初に 話したのと 同じ質の検証が使用されると 思います このユーザースクリプトで これらの1から5のスコアを与えます これは現在の項目のクオリティだと 思います 1次資料ツールは すべてのインポートしたい、しかし 直接ウィキデータに入れられる質でない データベースのためのものです だからこれを1次資料ツールで 処理し それから実際に人が判断し 個々のステートメントを 加えるかどうかを決めます 座標を地図で示すことは とても便利な機能ですが クオリティコントロールにも 有用です これがウィキデータ・ドイツの オフィスのはずで 座標がインド海の中にあれば 何か間違っていると気が付きます 単に数字を見るより 簡単にわかります これは 相対的完全性 インディケータというガジェットで この小さなアイコンで示され その項目が完成しているかどうか あるいはどのプロパティが 欠けていそうかを示し 項目を編集しているときに便利なもので もし馴染みない分野で 使うべき正確なプロパティが わからないときには とても便利なガジェットです Shape Expression があります アンドレアかホゼが これらについてお話すると思いますが 基本的には 持っているデータをそのテーマに対して 比較するためのとても有効な方法です どのステートメントが 特定のエンティティを持つべきか 他のエンティティがリンクされるべきか どのように完成されるべきか それによって間違いを見つけることができます えーと これですね Integraality または プロパティ・ダッシュボード 既にあるデータの概要を示します 例えば WikiProject Red Pandaの このフォームで ここにほとんどすべての赤パンダの 性別があるのかわかります 誕生日はどこの動物園かによって かなり変わります 亡くなったパンダは ほとんどいないですね よっかた かわいいからね これはとても便利です そしてOKすると 次に出てくるのは ウィキデータ Bridge クライアント編集として知られているものです ウィキピディア Infobox から ウィキデータを編集します これによりより多くの 閲覧がなされます なぜならもっと多くの人が これらのデータを見るからです これによってウィキピディアでより ウィキデータが使われるようになるでしょう そしてもっと多くの人に気づかれるように なるでしょう 例えばデータが古かったり 更新が必要なときは ウィキデータ自体だけで気が付かれないことを 知ることができます Tainted Referencesもあります これはステートメントの値を編集すると タイポなどを直している場合は 別として リファレンスも更新することがあるでしょう このTainted Referencesは 編集している人にそれを示す他に 他の編集者にも他に どのような編集がされたか示します ステートメントの値が変更され リファレンスが更新されているいないを知り それらを修正するか どうするかを決めることができます もっと修正を入れるか そのままでリファレンス更新は 必要がないとか… これはSigned statementsに関して データの提供者が心配する… UNESCOかなにかが参照された ステートメントがあり 突然 誰かがそのステートメントに 損傷を加えたら UNESCOなどの機関が その損傷されたステートメントを 出したように見られる恐れがあります だからSigned statementsは 暗号的にこのリファレンスに サインを入れることができます 編集を防ぐことはできません でも少なくとも 誰かがステートメントを損傷するか あるいは編集したりすると サインは無効になります そしてそのステートメントが その機関が入れたものでないとわかります もし正しい編集なら そのステートメントを 再度サインすることができます または編集しなおすことができます それから 素晴らしいものとして Citoidがウィキデータにはあります これにはURLを貼り付けたり 識別子 またはISBN ウィキデータIDなど 基本的に 何でもVisual Editorに入れられ きれいにフォーマットされた リファレンスを作成し それにはすべてのデータが含まれていて とても使いやすいです それに比べてウィキデータでは リファレンスを入れたければ リファレンスURLとタイトル 著作者名 出版元、出版日 改訂日などを少なくとも加える必要があり とても厄介です ウィキデータにCitoidを統合することで それが簡単になります 私は以上です ではクリスティーナに渡します (拍手) クリスティーナです チューリッヒ大学の研究員で スイスのコミュニティの 活動者でもあります クラウディア・ミューラーと私が WikidataConにこれを提示した際 期待したことは 今年の始めに データクオリティのワークショップや その他のウィキマニアのセッションで 始めた議論を継続していくことです 今日の講演は基本的に コミュニティと私達が 集めた考察を提供し 会話を続けていくことが目的です これからみなさんと交流を 続けていきたいと思います 私達がもっと重要と思うのは コミュニティの様々なユーザーに 何が必要か そしてデータクオリティの 問題が何かを問い続けることです 編集する人たちだけでなく コードを書く人や データを利用する人 また何が起こったか編集履歴を 実際 利用する研究者など すべてのユーザーを含みます ウィキデータに存在する約80の ツールを評価し それらを異なったデータクオリティの次元で 整理しました 実際に気がついたことは 多くのツールは 完成性をモニターしていて 実際…インターリンクを 可能にするものもありますが 多様性を検証するツールが 欠けていて これは実際ウィキデータに 特にウィキデータのデザイン原則に 組み込めるもののひとつで 多様性をもたせ 異なった出典からの 異なった値の 異なったステートメントを含めます これらは2次資料になるので 実際どれだけの複数の ステートメントがあるか どのように どれだけを向上できるか等を 示すツールはありません また多様なステートメントが存在する 理由もよくわかりません だからこれらのコミュニティでの ディスカッションから まだ注目すべきチャレンジが 浮き上がってきました 例えばこれらのクラウドソーシングの コミュニティがあることは データやグラフの異なった部分に 取り組む異なったグループの人々がいて また異なったバックグラウンドの知識を 注ぎ込まれるという利点がありますが 実際は異なった人々が 異なったプロパティを異なった方法で使い エンティティの識別子に 異なったものを期待するので 何か均一なものに整えるのは 難しいです グローバルな状態を捉えるための ツールがもっと必要だと いう声も聞かれました どのエンティティが 完成性の点で欠けているか また人々が現在 どのような作業をしているか そして異なった言語間のみでなく かつそのWikiProjectと 異なったウィキメディアの プラットフォームに渡る 緊密な共同についての 言及もありました これらのディスカッションからの すべての書き留められたコメントを Etherpadのここのリンクに またウィキマニアのウィキページに 公開しました いくつかの解決策は 実際 異なったWikiProjectで 開発された最善の実践方法を 共有する方向へ向かうように見えますが チームでの仕事を整理し 少なくとも誰が作業をしているか 理解できるツールも求められています またもっとショーケースが求められ よりよい方法でそれらを作成できる テンプレートが求められています 自治体オープンデータの組織との コンタクトを通じて そして特に チューリッヒ市と州と接していると ウィキデータに興味が持たれている ことがわかります つまり誰でもアクセスして データを見ることができる場所で データを皆に提供したいからです だからその目的に沿うには 何かのクオリティの識別子を持つことが とても気が惹かれるでしょう ウィキでは既にありますが また SPARQLの結果にも それらがあると良いでしょう そしてそのコミュニティからの結果が 信頼できるかどうかわかります さらに持っているデータのどの部分が ウィキデータに有益かが理解でき そしてそれらを自動的に 評価するツールが求められます またデータをインポートするべきか リンクするべきかを決断する ある種の手法かツールも必要です 場合によっては 自分たちのリンクのある オープンデータセットを持っている場合 データを入れるべきか ウィキデータへデータセットから リンクを作るべきか あるいは逆方向にするかなどが あるからです またウィキデータのどこにウェブサイトが 参照されているかを知りたいです Query Serviceでそのような クエリを行うと タイムアウトになることもあるので もっとツールを作り これらの質問の答えが 得られるようにすべきです それ以外にも ウィキ研究者はしばしば 編集サマリで情報が 欠けていることがあります 様々なエディタの挙動 ツールやボット あるいは匿名のユーザーなど 理解する作業したとき 私が覚えていることは 例えば使用されたツールを 追跡する標準の方法などが 欠けていたことです PetScanなどそれを既に行うツールも いくつかありますが このようなキメの細かい起源を どのように記録するかについて コミュニティで検討するべきでしょう さらに リンクされたデータに関するけど すべてのタイプのデータに関しない より強固なデータクオリティ次元を 考慮する必要があります リンクで可能にされる 情報取得(Information gain)を 調べてみました つまり ウィキデータを他のデータセットに リンクする際に どれだけのエンティティが 実際クラシフィケーションに得られるか あるいは記述や また使用されている単語などが得られるかも 考えるべきです 簡単な例を挙げると… この場合 ウィキデータ あるいはウィキデータにリンクされた 外部のデータセンターで ナターシャ・ノイと呼ばれる 人のエンティティがあり 所属やその他の情報があります これでOKとして 外部にリンクし そこにその名前のエンティティが既にあり 実際同じ値を持っているとします よりよい方法は 別の名前をもつものにリンクします このひとは2通りの方法で 名前を書くことができるので有効です あるいはウィキデータにない 他の情報や 他のデータセットにない情報を 持つことができます もっとよい方法としては この情報を分類する新しい方法を持つ ターゲットデータセットを 見ることです これが人であるのみでなく 他のデータセットでは 女性であるとかなど 他の分類も言及できます もし他のデータセットで もっと多くの単語が使われていれば 全体の情報を回収するものの 助けにもなります それに関してさらに言えることは フェデレーションクエリーが よりよく行われます マリーシェフ達による クエリーログを見ると オーガニックなクエリーから フェデレーションクエリーは ほんの少ししかないことがわかります 実際フェデレーションはリンクされた データを持つ主なる有利な点の一つでなので コミュニティや ウィキデータを使う人は この例がもっと必要でしょう 使用されたエンドポイントを見ると… これは完全なリストではなく もっとあります もちろんこのデータは2018年3月までの クエリーを評価していますが フェデレーションエンドポイントを見ると それらが使用されているかどうかを 見るべきです 後のディスカッションで使用できる 参加者の皆さんへの2つの質問は あなた達の必要に応じるための データクオリティの問題は なんであるか そしてまた編集や警衛のために 必要な自動化は何かということです 以上です ありがとうございました (拍手) (ホゼ・エミロ・ラブラ) 私が話すことは Shape Expressionに関連し 私達が開発しているツールです 私はホゼ・エミロ・ラブラです これらのツールは異なった人によって つくられました 主にW3C ShEx, Shape Expressions コミュニティグループに関連しています ShEx コミュニティグループです まずお話したいのは RDFShapeで これは一般的なツールです なぜなら Shape Expressionsは ウィキデータのためだけでなく 一般的に RDFを検証する言語だからです これは私が主で開発したもので 一般的にRDFを検証するツールです RDFについて学習したいとか ウィキデータでのみでなく RDFやSPARQL エンドポイントを 検証したいなら このツールをお勧めします また学習については 私は大学で教えていて RDFを教えるにはセマンティクな ウェブコースでそれを使っています だからRDFを習いたいなら これはよいツールだと思います 例えばこのツールでの RDFグラフの可視化です ここへ来る前 先月 ウィキデータ用に特に RDFShapeを分岐し始めました これを WikiShapeと呼んで ウィキデータのプレゼンで紹介しました 行ったことは ウィキデータに関連しないものを削除して ウィキデータ SPARQLエンドポイントなど 幾つかのものをコードに書き込みました ウィキベースにもできるかと 聞かれましたが ウィキベース用を作るのも とても簡単にできます このWikiShapeツールは 新しいもので ほとんどの機能は働くと思いますが 機能しないものもあるでしょう 使ってみて向上させたいと 思われた方はご連絡ください これは[不明瞭]キャプチャですが やってみましょう 動くかどうかみてみましょう まず外に出て… ここ ここにツールがあります このツールでできることは 例えば スキーマ エンティティスキーマの検証です ここに新しい名前空間があり Eの何か… 例えば「human…」と書けば 書いていく間に補完されるので チェックすることができ 例えば 人のShpae Expressionは ここにあるShpae Expression です このエディタには シンタックスが色付けされています これは… 画面が小さいので 大きくしてみましょう 見やすくなるでしょう これがエディタで シンタックスが色付けされています このエディタは ウィキデータ Query Serviceと 同じソースコードからできています 例えば マウスを乗せると 異なったプロパティの ラベルを表示します ウィキデータのエンティティ スキーマは単なるテキストアイデアなので とても便利だと思います このエディタは補完機能があるので よりよく また… 例えば拘束を加えたければ 「wdt:」と打って 「author」と書いて Ctrl+Spaceと打てば 異なった物を提供します これはウィキデータの Query Serviceと似ていますが これはShpae Expression特定のものです なぜならShpae Expressionの作成は SPARQL クエリーを書くより 難しいものではないと思うからです 同じレベルだと思う人もいるでしょうが 私は多分はより簡単だと思います なぜならShpae Expressionは簡単に 機能するようにデザインされているからです これが まず最初の Shpae Expressionのための エディタです そしてまた例えば 簡単に可視化できるでしょう Shpae Expressionがあって 例えば 「written work」は よい Shpae Expressionでしょう 異なった物の間に 何らかの関連があるからです これは 「written work」の UML可視化です UMLでは 簡単に異なったプロパティを見れます これを行った際 何人かの Shpae Expressionに 間違いがあることに気がつきました 何が欠けているプロパティかなどが 簡単に見つけられるからです そしてもうひとつの可能性は 検証ができることだと思います どれかのラベルにあったと思います 閉じてしまったかも… でも例えばここValidate entitiesを クリックできます 例えば 「q52」そして著者である「e42」 「human」で… 「human」でできると思います… そして SPARQLクエリーをしているので 少し時間がかかっています この例はネットワークのせいで 機能しませんが 自分で試してみてください では他のツールのプレゼンを続けましょう 試したい方 フィードバックが欲しい方は 連絡してください プレゼンを続けます これが WikiShape です 既に言いましたが Shpae Expression エディタは GitHubの中の独立したプロジェクトです 個人のプロジェクトで使用できます Shpae Expression ツールをしたければ 任意のプロジェクトに 入れ込めばいいだけです これはGitHubの中にあるので だれでも使えます 私の生徒である同じ著者がさらに 作ったShpae Expression用の エディタがあり ウィキデータ Query Serviceに 影響されたもので 欄の中に SPARQLクエリーの より可視化されたVisual editorがあり このようなものを入れることができます これはスクリーンキャプチャです これはテキストの Shape Expressionであることがわかりますが これはフォーム形式のShape Expressionで ちょっと時間がかかります 異なったフィールドに 異なった行を入れることができます そして ShExEr があります オビエド大学の大学院生が作ったもので 彼がここに来ているので ShExErを紹介します (ダニー)ダニー・フェナンデスです オビエド大学の大学院生で ラビラと一緒に仕事しています 時間が迫っているので 急いでやります デモはしないで スクリーンショットを出しましょう Shape Expressionや他のShape言語で 作業をする通常の方法は 内容領域専門家がいて 先験的に グラフをどのようにするか 構成を定義し その構成を使用して 実際のデータを検証します ラビラが紹介したもののと同様に このツールは 一般的な任意のRDFソース用のツールで 逆方向にデザインされています 幾つかのデータが既にあり Shapeを得たいノードを選択し すると自動的に抽出また Shapeを推測します これは一般目的のツールですが WikidataCon のためにしたことは これらの優れたボタンです クリックすると起こることは たくさんの構成パラメータがあり ウィキデータエンドポイントに対して 機能するようになっています 失礼 このボタンを押せば 基本的にこれが得られます どのような記述が欲しいか またクラスのインスタンスなど 探しているものを選択した後 自動的にスキーマが得られます どれだけのモードが実際使われているかで すべての拘束が整理され あまり共通しないものを 取り除くことができます このポスターが下に掲示されていて 私は今日はこのあたりに 一日中いますので このツールに関心のある方は 声をかけてください ではラブラにマイクを返します ありがとうございました (拍手) (ホゼ)では次のツールにいきましょう これは ShapeDesignerです アンドレア ShapeDesignerを ここで紹介しますか それも後でワークショップで 紹介しますか ワークショップがあるので… 午後 特に Shape Expressionのための ワークショップがあります もっと実際に行い ShExを練習したい方は そちらへお越しください このツールは ShEx… エリックがいます 紹介してくれますね (エリック)簡単に言いたいことは すでに ShEx のインターフェイスは 見たことがあるでしょう これはウィキデータ用のものです 不要なものを除いた ウィキデータ用のものです 一般的なものにはもっと機能がありますが 言っておきたいことは ウィキデータのスキーマを デバグするための 特に有効な機能です Slurpのモードを選択すると 行われることは 検証中に すべての3つ揃いを取り出したいとき つまり多くの失敗が返ってくると これらを見て どの3つ揃いがここにあり… 失礼 3つ揃いはこの下です これは行われたことのログです ここでリアルタイムで いじることができます 動かしてみたり 変えることができます 素早くできるバージョンです これがShExのフォームで シャヒーンがドキュメントのためには Shape Expressionによって ウィキデータのドキュメントを 埋めるに役立つだろうと 示唆したものです ウィキデータ用には つくられていませんので これはあるスキーマがあるとき そのスキーマを特定の方法で 描画したいということを注記でき そのフォームを作成し データがあれば そのフォームを埋めることもできます PyShExは素晴らしいです (ホゼ)これが最後だと思います 最後はPyShExです PyShExはShape Expressionの Pythonインプリメンテーションです お好きな方は Juyiter Notebooksでも 使えます それだけです (拍手) (アンドレア)私が関与した 特別なプロジェクト Gene Wikiについてお話します それで私達もクオリティの問題を 対処しています そのクオリティについて話す前に Gene Wiki とは何か ちょっと紹介します このプロジェクトの詳細を説明する 論文を最近 書いてちょうど その出版前のものを公開しました 写真を撮っている方もいますが 基本的に Gene Wikiは 生医学のデータ 公開されたデータを ウィキデータに入れるもので ウィキデータに入れるには 特定のパターンに従っています 新しいレポジトリや データセットが手に入ると それがウィキデータに含まれるべきものなら まず最初にコミュニティによる関与です 直接ウィキデータのコミュニティで ある必要はなく ローカルな研究コミュニティによる 関与です オンラインかなにかの方法で会い データモデルを想像します これによりデータを ウィキデータモデルにつなげます 去年のワークショップの 写真がここにあります 特定のデータセットを 見ようとしています たくさんの論議があり schema.org とその他の 存在するオントロジーに揃えています そして最初のステップの終わりに ウィキデータに入れたい スキーマが描かれています ここにあるものは 平素です この後ろにあるのは 今日のパネル内でも 幾つかのスキーマを作れます スキーマができれば 次のステップは スキーマを機械可読にすることです ウィキデータの入れる生医学の データベースから持ち込むデータを つなげる起動可能なモデルが ほしいからです ここで Shape Expressionを 適用しています Shape Expressionは データデットが実際… まず 既にウィキデータに存在する データが同じデータモデルに従っているかが 先ほどのプロセスで達成されます そして Shape Expressionで このトピックのウィキデータのデータが 修正が必要化どうか ウィキデータの中のモデルに 当てはめるに必要な操作があるかなど 検証します それが整ったら ボットを書き始め ボットは定期的に 情報を入れています これがウィキデータに入れられる 1次資料です ボットが出来上がったら… これらのボットは 私たちのプロジェクトで作られた Wikidata Integratorと呼ばれる Pythonライブラリの プラットフォームで書かれます ボットが書かれたら 継続的インテグレーションのために Jenkinsというプラットフォームを 使用します Jenkinsでは ウィキデータを1次資料で 継続して更新できます これが先に話した論文のダイアグラムです これが現在の状態です このオレンジの箱が 薬物 遺伝子 疾患 作用する化学物質の 1次資料で このモデルは小さくで見にくいですが これがデータベースで ウィキデータ内で管理される資料で 1次資料とつながっています これがワークフローです 私達のパートナーのひとつは 疾患オントロジーです 疾患オントロジーは CCOオントロジーで このCCOオントロジーはそれ自身の キューレーションサイクルを持っていて 疾患の領域に合わせて また疾患の解釈に応じて 継続的に疾患オントロジーを 更新しています ウィキデータにも疾患に関する キューレーションサイクルがあり ウィキデータコミュニティでは ウィキデータで常にモニターしています 私達には2つの役割があり 口語的にこれらを ゲートキーパーキュレーターと呼んでいます これは私と同僚が5年前に コンピュータの前に座って ウィキピディアとウィキデータをモニターし もし1次コミュニティ 1次資料へ 連絡される問題があれば インプリメンテーションを調べ 決断を下します このウィキデータの入力を信頼するかを見て そして考慮されたら このサイクルに入り 次のイタレーションは 疾患オントロジーの部分で ウィキデータに入れられます WikiPathwayでも同じことをしています WikiPathwayはMediaWikiに触発された 経路のリポジトリです 同じ様にウィキデータには既に 異なった経路が存在します これらの経路のリソースの間で 一致しない場合は それがゲートキーパー キュレーターから コミュニティに連絡され 個々のキューレーションのサイクルは 維持されます もし以前のサイクルを覚えていれば ここでは2つのサイクルと 2つのリソースのみ話しましたが すべてのリソースに対して 行う必要があり 何が起こっているかを管理しなくては なりません キューレーションというのは ウィキピディアのトップページに行き ウィキデータのトップページに行き それをやることです これは持っている2つのゲートキーパー キュレーターから拡張できません 2016年の会議のとき エリックがShape Expressionのプレゼンをし 私もこれをやろうと これでいいぞと思いました Shape Expressionはウィキデータ内の 違いを検知する助けになるので ゲートキーパーがより効果的な レポートを出せます 今年 スキーマエンティティに 感激しました なぜならそれらのエンティティスキーマを ウィキデータ自体に保存できるからです これは以前はGitHubに保存されました ウィキデータのインターフェイスと 揃えられ ドキュメントのディスカッションができたり また改訂もできます トップページとウィキデータの改訂を 利用して ウィキデータに何があるべきか 1次資料が何かについて ディスカッションできます エリックがプレゼンしたものは 既にとても有益です ここにヒト遺伝子のための Shape Expressionを作り 簡単なShExを通して使ってみました ご覧の通り 既に… ひとつモニターする必要のある 問題があります スキーマに合わない項目が ひとつあります これには既にスキーマエンティティ キューレーションのレポートが作られ 異なったキューレーションの レポートへ送ります ShEx.js は 構築されたインターフェイスで ここに戻ってみると… 10 だけやってますが 何万ものあるので これもうまく拡張しません だから Wikidata Integratorは SgExサポートにも対応し そして項目のループをループすることができ yes-no yes-no そして真−偽 真−偽と 行えます そしてまた レポートの対処の効率を向上します でも最近 ウィキデータの Query Service上にビルドされ 今 絞り込んでいるところですが 同様にこれも拡張しません どのようにウィキデータのモデルを扱うかは 継続している課題です ShExは巨大に感じるものであるだけでなく その規模は扱うには大きすぎます だから最初の概念の証明 あるいは演習を始めてみました yEDというツールを使います これらのShape Expressionをまず描き… そしてこのスキーマを Shape Expressionの隣接する フォーマットに再生しました だからこれは既に Shape Expression言語に尻込みする 聴衆者でも使用できます しかし実際 これらの視覚識別子には問題があります なぜならここに誰かがすでにyEDに描いた スキーマであるからです ここにも別のものがあります これが使っているのは…綺麗ですね これは壁にかけたいですが 相互運用可能ではありません 私の講演の終わりに このスライドを借りていますが 視聴に来てくれている彼に 感謝します これが大好きです RDFは複雑で鬱陶しいと思われていますが 現実はもっと悪く これはとても簡単です なぜなら現実のデータの問題は 実に複雑です RDFを避けることはできますが 複雑なデータやコンピュータの問題を 避けることはもっと難しいです これはRDFについてですが これはモデリングにも当てはまると思います 私の講演のポイントは どのようにモデリングをやっていくか? ShEx または 視覚的モデルを討論すべきか… いかに継続していくか? ご視聴ありがとうございます (拍手) (リディア)ありがとうございました 前に来てください 質疑を始めます 質問は? はい カメラのためには… (リディア)ええ (参加者1)クリスティーナへの質問で 他のシステムとのリンクで 「情報取得(information gain)」 という言葉を使われましたが 統計と確率に使われる 情報理論の計測に使われる information gainという言葉がありますが… 同じ… 確率理論からの 情報理論からの information gainと同じ計測を 意味しているんですか それともなんからの方法で 情報の取得を測る概念的な意味ですか いいえ実際 シャノン エントロピーを使って インプリメンテーション測定を 定義しているので それを意味します 詳細な式の説明は避けたかったので… (参加者1)はいわかります だから質問したのです (参加者1)ありがとうございました (参加者2)質問というより コメントですが… (リディア)どうぞ (参加者2)クオリティや完成性について 項目レベルに気が配られていますね 私が気になることは同じことが 階層に適応されていないことで 階層が的確でないという 問題があると思います コモンズ検索や他のことで これが問題になると思います できることのひとつは 外部の… 外部の類義語集が その階層を構成する方法として P4900 広範な概念修飾子を使って しかしもっとよい役に立つツールと 思うのは それによって外部の… 類義語集の階層マップを ウィキデータの項目にインポート できるようになります これらのP9400 修飾子と置かれれば 外部の階層から派生した階層を見ることが SPARQLを通じて 実際よりよいクエリーでできます 例えばポーラ・モーマは PKMを使いご存知のように ファッションの仕事を多くしています それを使って私達は ヨーロッパファッション類義語階層と ゲッティAATファッション類義語階層を 取り入れ そして私たちにとって 実に問題となる 高レベルの項目のどこに ギャップがあるか見てみます なぜならしばしばこれらはウィキピディアの 曖昧性解消ページにのみあるので 階層が欠けている より高レベルの 項目がたくさんあり これは時々クオリティと完成性の意味で 把握しておかなければならないものです しかし実際 私が書いたたくさんのPullスクリプト よりもよいツールは… 誰か Pythonで PAWS Notebook内に リンクされたデータや そうでない 外部の類義語集 そしてその階層を取り それらをP9400値にいれる クイックステートメントに入れることです そうすれば後日 叙述がもっと完全になったとき これらのP9400を更新するために 叙述が更新されるにつれ より密度が上がるので システムのその階層が もっと増えたことを示すように これらの修飾子も変える必要があります 誰かそれをしてくれれば とても便利だと思います また項目レベルのみでなく 階層レベルでクオリティと 完成性を向上する 他のアプローチについても 検索するべきです (アンドレア)付け足していいですか? 実際にやっています フィンが語彙的データで作った Shape Expressionを見ることを お勧めします 彼はShape Expressionを創り そして著作者表現にビルトしています だからウィキデータの中の リンクされたShape Expressionの構想で 特に 私が正しく理解していれば それはまさに Gene Wikiの中で やっていることです ウィキデータに入れられた 疾患オントロジーがあれば 疾患のデータが入れられ この類義語集に一致するかを知るに Shape Expressionを応用できます またウィキデータに入れる必要のある 他の類義語集や制御された語彙の 他のオントロジーがあります これはまさにShape Expressionが 有用です なぜなら疾患オントロジー用の Shape Expressionが持て Mesh用のShape Expressionが持て そして「じゃあクオリティを調べよう」 ということになります なぜなら制御された語彙がある場合 ウィキデータの内容も このクオリティに沿っているとしても それに同意しない コミュニティもあるでしょう だからツールは準備されていても これらのモデルを作り 異なった ユースケースに適用することになります (参加者2)外部のオントロジーを ウィキデータにマップしたものがあれば Shape Expressionはとても有益ですが 私の問題はそれに至ることです どれだけの外部のオントロジーが まだウィキデータに中に無いか そしてそのギャップがどこになるかを 知るために より使いやすいツールで 欠けている 外部のオントロジーを探すことは とても有益になるでしょう ここでの最も大きい問題は ツールではなく ライセンスです オントロジーをウィキデータに 取り込むのは簡単ですが ほとんどのオントロジーは どう言えばいいか… ライセンスの制御があり ウィキデータには使えません (参加者2)とても多くの 一般使用可能な類義語辞書が 文化の分野にはあります −(アンドレア)話し合う必要がありますね −(参加者2)そうですね (アンドレア)では話しましょう (参加者3)コメントしたいことは ジェームスへの答えになります つまり階層がグラフを作り もしあなたが… 基本的に言いたいことは 階層の共通した問題は サークル階層です お互いに戻ってくるようになり 問題がある際には そのような階層を 持つべきではありません このおかしなことは ウィキピディアのカテゴリでよく起こります カテゴリにたくさんサークルがあります しかしいいことにはこれは… 技術的に言ってこれは PMP完成の問題で グラフを作ると簡単に 見つけることができません しかし多くの開発された方法があり これらの階層グラフの 問題を見つけられます 例えば「*Finding Cycles Breaking Cycles in Noisey Hiearachies*」という論文で 英語のウィキピディアのカテゴリの 問題を助けています これをウィキデータのこれらの 階層に応用することができ 問題になりそうなものを見つけ 支障をきたすものを取り除けばいいです 実際 支障を見つけます これは単にアイデアですが… (参加者2)それはいいですね しかしあなたは存在する 不適切なサブクラスの関係の数を 軽く見ていると思います 全く間違った国に 市を持っているようなもので 地理のツールとして それを見つけるものがありますが 階層に使えるツールが必要です 完全に欠けている国に相当する 項目がどこにあるか また全く異なったものに サブクラスされているものがあるかを 認識するためのツールが必要です (リディア)あなたの言っていることは 私と私のチームが 私達のデータを再利用する人たちから よく聞くことと似ています 個々のデータポイントは適正でも オントロジーなどで見なければ それは… なぜこれが起こるかの もっとも問題となる点は ウィキデータの編集の多くが 個々の項目で起こっていて 項目が編集しています 例えばそのグラフの他の部分への 全体への影響を理解していない ことがあります 個々のローカルでの編集の影響を もっと可視化できる方法について アイデアがある方がいれば 誠実に編集を加える人たちに その影響を見せることができれば これは探求する価値が あると思います わあ では君 そして君 そして君 (参加者3)ディスカッションの後で ジェームスの言ったことに 同意を示したいです 基本的にもっと危険なものは 階層でしょう 階層ではなくてもっと一般的に ウィキデータ内のサブクラスの関連の 意味論でしょう この会議のための 最近 言語を学んでいます 例えば多くの場合 言語は同じもののサブクラス そして一部です つまり柔軟なオントロジーを 持っているといえます ウィキデータはときどき それを自由に表現します なぜなら 言語のオントロジーは 政治的にも複雑ですね 不明瞭のレベルを表現する立場で あるのもいいです しかしそれの機械解読をしたければ それは非常に問題です そしてまた オントロジーは 元々 私達のものであった何かから インポートされたことはないと思います 言ってみれば初期ウィキピディアから 集めれたものです このShape Expressionはいいけど ウィキデータのオントロジーを 外部の資料で 検証したり修正をしたりもでき 素晴らしいアイデアですが 最後に 外部のオントロジーをウィキデータに 反映することで終わりますか? そしてまた外部の資料から 決して集められない私達のオントロジーの 中核はどうすればいいでしょう どのように修正すべきでしょうか? それはそれ自体の問題になるでしょう 外部の何かで オントロジーを検証するアイデアから 独立して注目しなければ ならなくなるでしょう (参加者4)拘束やシェープで できることは とても素晴らしいですが 主点ははっきりしていく… なぜならデータに何を期待するかが 明瞭にできるようになったからです 以前は個々にツールや スクリプトを作る必要があり 目につきやすく それについて議論できます しかし課題は良し悪しではなく 期待です 人によって ウィキデータでどうモデルするかは 異なった期待と議論があるでしょう そしてこれは… 現在の状況はその方向に 一歩進み これに取り組むには 技術的な知識が必要となるので この拘束を可視化するための それを理解しやすい たぶん自然な言語に変換するための 方法が求められ 良し悪し自体はあまり問題ではないです (リディア)はい (参加者5)クオリティについて 賛同したいのは… 私はたくさんの問題を見つけました インスタンスとサブクラスの間の 意見の差にも行き当たりました これらの状況のエラーだと思い とても時間のかかるプロセスを 探しました 私が見つけたのは「とても 興味深い項目を見つけたら 何か… そして派生するすべての ステートメントを見つけるに すべてのサブクラスの インスタンスを使おう」 これはこれらのエラーを見つける とても有効な方法です しかしShape Expressionができるか… 何か… これらの問題を解消するツールとして 使えれば…でも… (参加者6)構造的な足跡があれば… 構造的な足跡があれば 改ざん可能な… 見てみて これはできると… しかしこれが単に 現実のものを マップしようとしているだけなら とてもたくさんの頭脳が必要でしょう (参加者7)Apple Sire Knowlege の パブロ・メンデスです 私達はどうプロジェクトとコミュニティを 助けるかを見つけるために集まっていますが クリスティーナは間違って 私達が欲しいものを尋ねました (笑)そこで私が思うのは 検証可能性に関して 多くのことが求められます それはプロジェクトやコミュニティ その信頼性の中核となるもののひとつです すべてのステートメントは等しくなく とても争われるものや 簡単に推測できるものとか 例えば誰かの誕生日は簡単に 検証でき 今日のキーノートのように 性別はもっと複雑です もう少しデータのクオリティの分野で 信頼性と検証可能性に関して 知っていることを話してもらえますか あまりなければ もっとあって欲しいと思います(笑) (リディア)はい 明らかにあまり言うことがないようです(笑) (アンドレア)できることがたくさんありますが 昨日 あなたと話したように 昨日習った私の好みの例は もう昨日拝み倒されたものですが Q2 地球に行くと 地球は平面というステートメントがあります この例が大好きです なぜならそれを主張するコミュニティがあり 検証可能なリソースがあるからです これは誠実な例で 拝み倒されるべきでなく ウィキデータにあるべきです Shape Expressionは ここで非常に役立ちます このユースケースにとても 関心があるとか これは同意しないユースケースとか しかしまたこれはいいけど 関心があるというユースケースもあります ここに例があるとします グルコースがあります 生物学者なら グルコースの分子構造の 化学的拘束には興味がないでしょう すべてのグルコースに関することは 同じです でも化学者なら これを聞くと気になると思います 200ほどのものがあります だから複雑のShape Expressionがあります ここで 化学者の立場で これに対応します そしてあなたが 生物学的なユースケースから Shape Expressionを適用したいとします そして共同したければ エリックと ShExについて 話すとよいでしょうが この行程はまだ始まったばかりですが この分野で非常に 重要なものと思っています (リディア)あちらの方 (参加者8)ディスカッションでの 幾つかの点についてアイデアがあります 失わないように… 3つのアイデアが… ちょっと前にジェームスが言ったことで 上部のオントロジーのための開始から ウィキデータにはとても 大きな問題があります WikidataConで2年前に 話しました そしてウィキマニアについて 話し合いました ウィキデータの会議があると いつもこれを話します なぜなら目につくレベルの とても大きな問題だからです 何がエンティティで 何が workで 何も分野か そして芸術 もっとも大きな概念です これは実際 グローバルなオントロジーの 最大の弱点です なぜなら人々は常にこれを整理し すべてを線で分けようとしているからです 覚えている人もいると思いますが 世界中のすべての市を無意識に 壊した人がいます 地理的な項目ではないので 拘束違反に満ちて 誠実な意図でしたが 項目の間違いを直そうとしていたのに すべてを壊していしまいました これをどのように解決できるが 私はわかりません なぜなら実際に写してこれる 外部の機関がないからです 皆さんが作業している 例えば 芸能データベースだとします 直接 芸能のラベルに行くか あるいはエンティティがなにかの 論理的概念には行かず これは実際に… このレベルで機能している データベースは知りませんが これがウィキデータの弱点です データのクオリティを話すにおいて 実際もっと大きなといえるでしょう ここで言ったと同じ様に… 失礼 話題を変えてしまっています クオリティについては 別のセッションで言及しました それに関しては 実際 よいモデリングを行っている人がいて ShExを活用したりして それを行っています ウィキデータでは見れません ShExは見えません ディスカッションページでは WikiPeojectを見ず そして時には プロパティのトークページも見ません そこには明確に a)このプロパティが そのために使用されると記載されています 先週あるプロパティに 拘束を加えました そのプロパティの創作の ディスカッションに この拘束は明確に記述されていました 私はその拘束を加える技術部分を 作っただけですが 誰かに「私の編集をすべて 台無しにした」と言われました その人は過去2年 このプロパティを 間違って使っていました プロパティは実際はとても明瞭ですが 警告などがなく… だからウィキマニアの ピンクのポニーのように WikiPeojectをもって見やすく ShExをもっと見やすくすべきです それがクリスティーナは 言ったことです 既存の解決策が見られていないという 問題があるんです このセッションでは もっとShExを作ろうとか 整理する人の作業を促進しようとか 話していますが ウィキデータの一日目から 整理をしてきていて グローバルには追いついて行けていません 追いつけていけない訳は… 名前が複雑だと知っていて 私だけで整理の作業をしていて すべての中国人の研究者に ラテン語の名前を追加する人がいるとしたら 何ヶ月も整理にかかり 一人ではやっていけません ではその人はバッチで その作業をしたでしょう 私たちが必要なのは… ツールの問題ではなくと 見て理解されるというが問題です 既にツールはたくさんあります (リディア)そうですね しかし時間のようで(笑) 締めくくりましょう たくさんのコメントを ありがとうございました 今日 この後もディスカッションを 続けてください 皆さんのご意見ありがとうございました (拍手)