データクオリティパネル
クロディア・ミューラービン、
ルーカス・ウェアミニスター
ホゼ・エミリオ・ラビラ・ガヤ、
クリスティナ・サラスナ、アンドレア・
データクオリティパネルの皆さん
こんにちは
多くの人が私たちのデータが正しいことを
頼るのでデータクオリティは重要です
だからデータクオリティについて
話し合いましょう
4人の講演者は
データクオリティについて短い紹介をし
その後で質疑を行います
ではまずルーカスから
ありがとう
ルーカスです
まずウィキデータに既にある
データクオリティツールと
開発されていて公開マジかなものについての
概要から始めます
いくつかのテーマの
グループに分けました
エラーを見つけやすくする
問題に対処しやすくする
データにより検証し
問題に気づきやすくする
一般的なエラーの元を修正する
既存のデータの質を維持する
そして人によるキューレーション
そして現在利用可能なものは
プロパティの拘束からです
ウィキデータで
これを見たことがあると思います
このような
内部のデータの均一性をチェックする
アイコンが出ることがあるでしょう
例えば
あるイベントが他に続くなら
他のイベントもこのイベントに
続くべきです
このWikidataConの項目では
それが見られません
この機能はできてまだ数日かも
しれません
あるいはこれが制限しすぎだったり
簡単すぎなら
Query Service を使って
チェックを自分で書くこともできます
もちろんQuery Serviceは
多くのことに有効ですが
エラーを見つけることもできます
ひとつ間違いを見つけたら
他の場所もチェックし
他の人が同じエラーをしていないか
Query Serviceで見つけられます
あるいは2つを組み合わせて
拘束違反を
Query Serviceで探せます
例えば
ある部分にだけあるエラーや
WikiProjectの
あなたの関連した部分だけのエラーなどです
でも残念なことに
その結果は現在のところ完全ではありません
改訂スコアリングもあります
これは最近の変更からだけ思いますが
自動アセスメントのウォッチリストに入れて
その編集が誠実なものかどうか
また被害を与えるものかどうかを
見ることができます
これは2次元だと思います
だから被害を与えるけど
誠実なものかどうかに注目して
特に友好的な気分なら
これらの編集者に
「貢献してくれてありがとう
次回はこのようにしてください」など…
でもそうでなければ
誠実でないものや
被害を与えるものを
元に戻すこともできます
似たものに
エンティティ・スコアリングがあり
これは変更が加えられた
編集をスコアリングするのはなく
全体の改訂をスコアリングします
これにはリディアは会議の当初に
話したのと
同じ質の検証が使用されると
思います
このユーザースクリプトで
これらの1から5のスコアを与えます
これは現在の項目のクオリティだと
思います
1次資料ツールは
すべてのインポートしたい、しかし
直接ウィキデータに入れられる質でない
データベースのためのものです
だからこれを1次資料ツールで
処理し
それから実際に人が判断し
個々のステートメントを
加えるかどうかを決めます
座標を地図で示すことは
とても便利な機能ですが
クオリティコントロールにも
有用です
これがウィキデータ・ドイツの
オフィスのはずで
座標がインド海の中にあれば
何か間違っていると気が付きます
単に数字を見るより
簡単にわかります
これは 相対的完全性
インディケータというガジェットで
この小さなアイコンで示され
その項目が完成しているかどうか
あるいはどのプロパティが
欠けていそうかを示し
項目を編集しているときに便利なもので
もし馴染みない分野で
使うべき正確なプロパティが
わからないときには
とても便利なガジェットです
Shape Expression があります
アンドレアかホゼが
これらについてお話すると思いますが
基本的には
持っているデータをそのテーマに対して
比較するためのとても有効な方法です
どのステートメントが
特定のエンティティを持つべきか
他のエンティティがリンクされるべきか
どのように完成されるべきか
それによって間違いを見つけることができます
えーと
これですね
Integraality または
プロパティ・ダッシュボード
既にあるデータの概要を示します
例えば WikiProject Red Pandaの
このフォームで
ここにほとんどすべての赤パンダの
性別があるのかわかります
誕生日はどこの動物園かによって
かなり変わります
亡くなったパンダは
ほとんどいないですね
よっかた
かわいいからね
これはとても便利です
そしてOKすると
次に出てくるのは
ウィキデータ Bridge
クライアント編集として知られているものです
ウィキピディア Infobox から
ウィキデータを編集します
これによりより多くの
閲覧がなされます
なぜならもっと多くの人が
これらのデータを見るからです
これによってウィキピディアでより
ウィキデータが使われるようになるでしょう
そしてもっと多くの人に気づかれるように
なるでしょう
例えばデータが古かったり
更新が必要なときは
ウィキデータ自体だけで気が付かれないことを
知ることができます
Tainted Referencesもあります
これはステートメントの値を編集すると
タイポなどを直している場合は
別として
リファレンスも更新することがあるでしょう
このTainted Referencesは
編集している人にそれを示す他に
他の編集者にも他に
どのような編集がされたか示します
ステートメントの値が変更され
リファレンスが更新されているいないを知り
それらを修正するか
どうするかを決めることができます
もっと修正を入れるか
そのままでリファレンス更新は
必要がないとか…
これはSigned statementsに関して
データの提供者が心配する…
UNESCOかなにかが参照された
ステートメントがあり
突然 誰かがそのステートメントに
損傷を加えたら
UNESCOなどの機関が
その損傷されたステートメントを
出したように見られる恐れがあります
だからSigned statementsは
暗号的にこのリファレンスに
サインを入れることができます
編集を防ぐことはできません
でも少なくとも
誰かがステートメントを損傷するか
あるいは編集したりすると
サインは無効になります
そしてそのステートメントが
その機関が入れたものでないとわかります
もし正しい編集なら そのステートメントを
再度サインすることができます
または編集しなおすことができます
それから
素晴らしいものとして
Citoidがウィキデータにはあります
これにはURLを貼り付けたり
識別子 またはISBN
ウィキデータIDなど 基本的に
何でもVisual Editorに入れられ
きれいにフォーマットされた
リファレンスを作成し
それにはすべてのデータが含まれていて
とても使いやすいです
それに比べてウィキデータでは
リファレンスを入れたければ
リファレンスURLとタイトル
著作者名
出版元、出版日
改訂日などを少なくとも加える必要があり
とても厄介です
ウィキデータにCitoidを統合することで
それが簡単になります
私は以上です
ではクリスティーナに渡します
(拍手)
クリスティーナです
チューリッヒ大学の研究員で
スイスのコミュニティの
活動者でもあります
クラウディア・ミューラーと私が
WikidataConにこれを提示した際
期待したことは
今年の始めに
データクオリティのワークショップや
その他のウィキマニアのセッションで
始めた議論を継続していくことです
今日の講演は基本的に
コミュニティと私達が
集めた考察を提供し
会話を続けていくことが目的です
これからみなさんと交流を
続けていきたいと思います
私達がもっと重要と思うのは
コミュニティの様々なユーザーに
何が必要か そしてデータクオリティの
問題が何かを問い続けることです
編集する人たちだけでなく
コードを書く人や
データを利用する人
また何が起こったか編集履歴を
実際 利用する研究者など
すべてのユーザーを含みます
ウィキデータに存在する約80の
ツールを評価し
それらを異なったデータクオリティの次元で
整理しました
実際に気がついたことは
多くのツールは
完成性をモニターしていて
実際…インターリンクを
可能にするものもありますが
多様性を検証するツールが
欠けていて
これは実際ウィキデータに
特にウィキデータのデザイン原則に
組み込めるもののひとつで
多様性をもたせ
異なった出典からの
異なった値の
異なったステートメントを含めます
これらは2次資料になるので
実際どれだけの複数の
ステートメントがあるか
どのように どれだけを向上できるか等を
示すツールはありません
また多様なステートメントが存在する
理由もよくわかりません
だからこれらのコミュニティでの
ディスカッションから
まだ注目すべきチャレンジが
浮き上がってきました
例えばこれらのクラウドソーシングの
コミュニティがあることは
データやグラフの異なった部分に
取り組む異なったグループの人々がいて
また異なったバックグラウンドの知識を
注ぎ込まれるという利点がありますが
実際は異なった人々が
異なったプロパティを異なった方法で使い
エンティティの識別子に
異なったものを期待するので
何か均一なものに整えるのは
難しいです
グローバルな状態を捉えるための
ツールがもっと必要だと
いう声も聞かれました
どのエンティティが
完成性の点で欠けているか
また人々が現在
どのような作業をしているか
そして異なった言語間のみでなく
かつそのWikiProjectと
異なったウィキメディアの
プラットフォームに渡る
緊密な共同についての
言及もありました
これらのディスカッションからの
すべての書き留められたコメントを
Etherpadのここのリンクに
またウィキマニアのウィキページに
公開しました
いくつかの解決策は
実際 異なったWikiProjectで
開発された最善の実践方法を
共有する方向へ向かうように見えますが
チームでの仕事を整理し
少なくとも誰が作業をしているか
理解できるツールも求められています
またもっとショーケースが求められ
よりよい方法でそれらを作成できる
テンプレートが求められています
自治体オープンデータの組織との
コンタクトを通じて
そして特に
チューリッヒ市と州と接していると
ウィキデータに興味が持たれている
ことがわかります
つまり誰でもアクセスして
データを見ることができる場所で
データを皆に提供したいからです
だからその目的に沿うには
何かのクオリティの識別子を持つことが
とても気が惹かれるでしょう
ウィキでは既にありますが
また SPARQLの結果にも
それらがあると良いでしょう
そしてそのコミュニティからの結果が
信頼できるかどうかわかります
さらに持っているデータのどの部分が
ウィキデータに有益かが理解でき
そしてそれらを自動的に
評価するツールが求められます
またデータをインポートするべきか
リンクするべきかを決断する
ある種の手法かツールも必要です
場合によっては
自分たちのリンクのある
オープンデータセットを持っている場合
データを入れるべきか
ウィキデータへデータセットから
リンクを作るべきか
あるいは逆方向にするかなどが
あるからです
またウィキデータのどこにウェブサイトが
参照されているかを知りたいです
Query Serviceでそのような
クエリを行うと
タイムアウトになることもあるので
もっとツールを作り
これらの質問の答えが
得られるようにすべきです
それ以外にも
ウィキ研究者はしばしば
編集サマリで情報が
欠けていることがあります
様々なエディタの挙動
ツールやボット
あるいは匿名のユーザーなど
理解する作業したとき
私が覚えていることは
例えば使用されたツールを
追跡する標準の方法などが
欠けていたことです
PetScanなどそれを既に行うツールも
いくつかありますが
このようなキメの細かい起源を
どのように記録するかについて
コミュニティで検討するべきでしょう
さらに
リンクされたデータに関するけど
すべてのタイプのデータに関しない
より強固なデータクオリティ次元を
考慮する必要があります
リンクで可能にされる
情報取得(Information gain)を
調べてみました
つまり
ウィキデータを他のデータセットに
リンクする際に
どれだけのエンティティが
実際クラシフィケーションに得られるか
あるいは記述や
また使用されている単語などが得られるかも
考えるべきです
簡単な例を挙げると…
この場合 ウィキデータ
あるいはウィキデータにリンクされた
外部のデータセンターで
ナターシャ・ノイと呼ばれる
人のエンティティがあり
所属やその他の情報があります
これでOKとして
外部にリンクし
そこにその名前のエンティティが既にあり
実際同じ値を持っているとします
よりよい方法は
別の名前をもつものにリンクします
このひとは2通りの方法で
名前を書くことができるので有効です
あるいはウィキデータにない
他の情報や
他のデータセットにない情報を
持つことができます
もっとよい方法としては
この情報を分類する新しい方法を持つ
ターゲットデータセットを
見ることです
これが人であるのみでなく
他のデータセットでは
女性であるとかなど
他の分類も言及できます
もし他のデータセットで
もっと多くの単語が使われていれば
全体の情報を回収するものの
助けにもなります
それに関してさらに言えることは
フェデレーションクエリーが
よりよく行われます
マリーシェフ達による
クエリーログを見ると
オーガニックなクエリーから
フェデレーションクエリーは
ほんの少ししかないことがわかります
実際フェデレーションはリンクされた
データを持つ主なる有利な点の一つでなので
コミュニティや
ウィキデータを使う人は
この例がもっと必要でしょう
使用されたエンドポイントを見ると…
これは完全なリストではなく
もっとあります
もちろんこのデータは2018年3月までの
クエリーを評価していますが
フェデレーションエンドポイントを見ると
それらが使用されているかどうかを
見るべきです
後のディスカッションで使用できる
参加者の皆さんへの2つの質問は
あなた達の必要に応じるための
データクオリティの問題は
なんであるか
そしてまた編集や警衛のために
必要な自動化は何かということです
以上です
ありがとうございました
(拍手)
(ホゼ・エミロ・ラブラ)
私が話すことは
Shape Expressionに関連し
私達が開発しているツールです
私はホゼ・エミロ・ラブラです
これらのツールは異なった人によって
つくられました
主にW3C ShEx, Shape Expressions
コミュニティグループに関連しています
ShEx コミュニティグループです
まずお話したいのは
RDFShapeで これは一般的なツールです
なぜなら Shape Expressionsは
ウィキデータのためだけでなく
一般的に RDFを検証する言語だからです
これは私が主で開発したもので
一般的にRDFを検証するツールです
RDFについて学習したいとか
ウィキデータでのみでなく
RDFやSPARQL エンドポイントを
検証したいなら
このツールをお勧めします
また学習については
私は大学で教えていて
RDFを教えるにはセマンティクな
ウェブコースでそれを使っています
だからRDFを習いたいなら
これはよいツールだと思います
例えばこのツールでの
RDFグラフの可視化です
ここへ来る前
先月
ウィキデータ用に特に
RDFShapeを分岐し始めました
これを WikiShapeと呼んで
ウィキデータのプレゼンで紹介しました
行ったことは
ウィキデータに関連しないものを削除して
ウィキデータ SPARQLエンドポイントなど
幾つかのものをコードに書き込みました
ウィキベースにもできるかと
聞かれましたが
ウィキベース用を作るのも
とても簡単にできます
このWikiShapeツールは
新しいもので
ほとんどの機能は働くと思いますが
機能しないものもあるでしょう
使ってみて向上させたいと
思われた方はご連絡ください
これは[不明瞭]キャプチャですが
やってみましょう
動くかどうかみてみましょう
まず外に出て…
ここ
ここにツールがあります
このツールでできることは
例えば スキーマ
エンティティスキーマの検証です
ここに新しい名前空間があり
Eの何か…
例えば「human…」と書けば
書いていく間に補完されるので
チェックすることができ
例えば
人のShpae Expressionは
ここにあるShpae Expression です
このエディタには
シンタックスが色付けされています
これは…
画面が小さいので
大きくしてみましょう
見やすくなるでしょう
これがエディタで
シンタックスが色付けされています
このエディタは
ウィキデータ Query Serviceと
同じソースコードからできています
例えば
マウスを乗せると
異なったプロパティの
ラベルを表示します
ウィキデータのエンティティ
スキーマは単なるテキストアイデアなので
とても便利だと思います
このエディタは補完機能があるので
よりよく
また…
例えば拘束を加えたければ
「wdt:」と打って
「author」と書いて
Ctrl+Spaceと打てば
異なった物を提供します
これはウィキデータの
Query Serviceと似ていますが
これはShpae Expression特定のものです
なぜならShpae Expressionの作成は
SPARQL クエリーを書くより
難しいものではないと思うからです
同じレベルだと思う人もいるでしょうが
私は多分はより簡単だと思います
なぜならShpae Expressionは簡単に
機能するようにデザインされているからです
これが まず最初の
Shpae Expressionのための
エディタです
そしてまた例えば
簡単に可視化できるでしょう
Shpae Expressionがあって
例えば
「written work」は
よい Shpae Expressionでしょう
異なった物の間に
何らかの関連があるからです
これは 「written work」の
UML可視化です
UMLでは
簡単に異なったプロパティを見れます
これを行った際
何人かの Shpae Expressionに
間違いがあることに気がつきました
何が欠けているプロパティかなどが
簡単に見つけられるからです
そしてもうひとつの可能性は
検証ができることだと思います
どれかのラベルにあったと思います
閉じてしまったかも…
でも例えばここValidate entitiesを
クリックできます
例えば
「q52」そして著者である「e42」
「human」で…
「human」でできると思います…
そして
SPARQLクエリーをしているので
少し時間がかかっています
この例はネットワークのせいで
機能しませんが
自分で試してみてください
では他のツールのプレゼンを続けましょう
試したい方 フィードバックが欲しい方は
連絡してください
プレゼンを続けます
これが WikiShape です
既に言いましたが
Shpae Expression エディタは
GitHubの中の独立したプロジェクトです
個人のプロジェクトで使用できます
Shpae Expression ツールをしたければ
任意のプロジェクトに
入れ込めばいいだけです
これはGitHubの中にあるので
だれでも使えます
私の生徒である同じ著者がさらに
作ったShpae Expression用の
エディタがあり
ウィキデータ Query Serviceに
影響されたもので
欄の中に
SPARQLクエリーの
より可視化されたVisual editorがあり
このようなものを入れることができます
これはスクリーンキャプチャです
これはテキストの
Shape Expressionであることがわかりますが
これはフォーム形式のShape Expressionで
ちょっと時間がかかります
異なったフィールドに
異なった行を入れることができます
そして ShExEr があります
オビエド大学の大学院生が作ったもので
彼がここに来ているので
ShExErを紹介します
(ダニー)ダニー・フェナンデスです
オビエド大学の大学院生で
ラビラと一緒に仕事しています
時間が迫っているので
急いでやります
デモはしないで
スクリーンショットを出しましょう
Shape Expressionや他のShape言語で
作業をする通常の方法は
内容領域専門家がいて
先験的に
グラフをどのようにするか
構成を定義し
その構成を使用して
実際のデータを検証します
ラビラが紹介したもののと同様に
このツールは
一般的な任意のRDFソース用のツールで
逆方向にデザインされています
幾つかのデータが既にあり
Shapeを得たいノードを選択し
すると自動的に抽出また
Shapeを推測します
これは一般目的のツールですが
WikidataCon のためにしたことは
これらの優れたボタンです
クリックすると起こることは
たくさんの構成パラメータがあり
ウィキデータエンドポイントに対して
機能するようになっています
失礼
このボタンを押せば
基本的にこれが得られます
どのような記述が欲しいか
またクラスのインスタンスなど
探しているものを選択した後
自動的にスキーマが得られます
どれだけのモードが実際使われているかで
すべての拘束が整理され
あまり共通しないものを
取り除くことができます
このポスターが下に掲示されていて
私は今日はこのあたりに
一日中いますので
このツールに関心のある方は
声をかけてください
ではラブラにマイクを返します
ありがとうございました
(拍手)
(ホゼ)では次のツールにいきましょう
これは ShapeDesignerです
アンドレア ShapeDesignerを
ここで紹介しますか
それも後でワークショップで
紹介しますか
ワークショップがあるので…
午後 特に Shape Expressionのための
ワークショップがあります
もっと実際に行い
ShExを練習したい方は
そちらへお越しください
このツールは ShEx…
エリックがいます
紹介してくれますね
(エリック)簡単に言いたいことは
すでに ShEx のインターフェイスは
見たことがあるでしょう
これはウィキデータ用のものです
不要なものを除いた
ウィキデータ用のものです
一般的なものにはもっと機能がありますが
言っておきたいことは
ウィキデータのスキーマを
デバグするための
特に有効な機能です
Slurpのモードを選択すると
行われることは
検証中に
すべての3つ揃いを取り出したいとき
つまり多くの失敗が返ってくると
これらを見て
どの3つ揃いがここにあり…
失礼
3つ揃いはこの下です
これは行われたことのログです
ここでリアルタイムで
いじることができます
動かしてみたり
変えることができます
素早くできるバージョンです
これがShExのフォームで
シャヒーンがドキュメントのためには
Shape Expressionによって
ウィキデータのドキュメントを
埋めるに役立つだろうと
示唆したものです
ウィキデータ用には
つくられていませんので
これはあるスキーマがあるとき
そのスキーマを特定の方法で
描画したいということを注記でき
そのフォームを作成し
データがあれば
そのフォームを埋めることもできます
PyShExは素晴らしいです
(ホゼ)これが最後だと思います
最後はPyShExです
PyShExはShape Expressionの
Pythonインプリメンテーションです
お好きな方は Juyiter Notebooksでも
使えます
それだけです
(拍手)
(アンドレア)私が関与した
特別なプロジェクト
Gene Wikiについてお話します
それで私達もクオリティの問題を
対処しています
そのクオリティについて話す前に
Gene Wiki とは何か
ちょっと紹介します
このプロジェクトの詳細を説明する
論文を最近 書いてちょうど
その出版前のものを公開しました
写真を撮っている方もいますが
基本的に Gene Wikiは
生医学のデータ 公開されたデータを
ウィキデータに入れるもので
ウィキデータに入れるには
特定のパターンに従っています
新しいレポジトリや
データセットが手に入ると
それがウィキデータに含まれるべきものなら
まず最初にコミュニティによる関与です
直接ウィキデータのコミュニティで
ある必要はなく
ローカルな研究コミュニティによる
関与です
オンラインかなにかの方法で会い
データモデルを想像します
これによりデータを
ウィキデータモデルにつなげます
去年のワークショップの
写真がここにあります
特定のデータセットを
見ようとしています
たくさんの論議があり
schema.org とその他の
存在するオントロジーに揃えています
そして最初のステップの終わりに
ウィキデータに入れたい
スキーマが描かれています
ここにあるものは
平素です
この後ろにあるのは
今日のパネル内でも
幾つかのスキーマを作れます
スキーマができれば
次のステップは
スキーマを機械可読にすることです
ウィキデータの入れる生医学の
データベースから持ち込むデータを
つなげる起動可能なモデルが
ほしいからです
ここで Shape Expressionを
適用しています
Shape Expressionは
データデットが実際…
まず
既にウィキデータに存在する
データが同じデータモデルに従っているかが
先ほどのプロセスで達成されます
そして Shape Expressionで
このトピックのウィキデータのデータが
修正が必要化どうか
ウィキデータの中のモデルに
当てはめるに必要な操作があるかなど
検証します
それが整ったら
ボットを書き始め
ボットは定期的に
情報を入れています
これがウィキデータに入れられる
1次資料です
ボットが出来上がったら…
これらのボットは
私たちのプロジェクトで作られた
Wikidata Integratorと呼ばれる
Pythonライブラリの
プラットフォームで書かれます
ボットが書かれたら
継続的インテグレーションのために
Jenkinsというプラットフォームを
使用します
Jenkinsでは
ウィキデータを1次資料で
継続して更新できます
これが先に話した論文のダイアグラムです
これが現在の状態です
このオレンジの箱が
薬物 遺伝子 疾患
作用する化学物質の
1次資料で
このモデルは小さくで見にくいですが
これがデータベースで
ウィキデータ内で管理される資料で
1次資料とつながっています
これがワークフローです
私達のパートナーのひとつは
疾患オントロジーです
疾患オントロジーは CCOオントロジーで
このCCOオントロジーはそれ自身の
キューレーションサイクルを持っていて
疾患の領域に合わせて
また疾患の解釈に応じて
継続的に疾患オントロジーを
更新しています
ウィキデータにも疾患に関する
キューレーションサイクルがあり
ウィキデータコミュニティでは
ウィキデータで常にモニターしています
私達には2つの役割があり
口語的にこれらを
ゲートキーパーキュレーターと呼んでいます
これは私と同僚が5年前に
コンピュータの前に座って
ウィキピディアとウィキデータをモニターし
もし1次コミュニティ 1次資料へ
連絡される問題があれば
インプリメンテーションを調べ
決断を下します
このウィキデータの入力を信頼するかを見て
そして考慮されたら
このサイクルに入り
次のイタレーションは
疾患オントロジーの部分で
ウィキデータに入れられます
WikiPathwayでも同じことをしています
WikiPathwayはMediaWikiに触発された
経路のリポジトリです
同じ様にウィキデータには既に
異なった経路が存在します
これらの経路のリソースの間で
一致しない場合は
それがゲートキーパー
キュレーターから
コミュニティに連絡され
個々のキューレーションのサイクルは
維持されます
もし以前のサイクルを覚えていれば
ここでは2つのサイクルと
2つのリソースのみ話しましたが
すべてのリソースに対して
行う必要があり
何が起こっているかを管理しなくては
なりません
キューレーションというのは
ウィキピディアのトップページに行き
ウィキデータのトップページに行き
それをやることです
これは持っている2つのゲートキーパー
キュレーターから拡張できません
2016年の会議のとき
エリックがShape Expressionのプレゼンをし
私もこれをやろうと
これでいいぞと思いました
Shape Expressionはウィキデータ内の
違いを検知する助けになるので
ゲートキーパーがより効果的な
レポートを出せます
今年 スキーマエンティティに
感激しました
なぜならそれらのエンティティスキーマを
ウィキデータ自体に保存できるからです
これは以前はGitHubに保存されました
ウィキデータのインターフェイスと
揃えられ
ドキュメントのディスカッションができたり
また改訂もできます
トップページとウィキデータの改訂を
利用して
ウィキデータに何があるべきか
1次資料が何かについて
ディスカッションできます
エリックがプレゼンしたものは
既にとても有益です
ここにヒト遺伝子のための
Shape Expressionを作り
簡単なShExを通して使ってみました
ご覧の通り
既に…
ひとつモニターする必要のある
問題があります
スキーマに合わない項目が
ひとつあります
これには既にスキーマエンティティ
キューレーションのレポートが作られ
異なったキューレーションの
レポートへ送ります
ShEx.js は
構築されたインターフェイスで
ここに戻ってみると…
10 だけやってますが
何万ものあるので
これもうまく拡張しません
だから Wikidata Integratorは
SgExサポートにも対応し
そして項目のループをループすることができ
yes-no yes-no そして真−偽 真−偽と
行えます
そしてまた
レポートの対処の効率を向上します
でも最近 ウィキデータの
Query Service上にビルドされ
今 絞り込んでいるところですが
同様にこれも拡張しません
どのようにウィキデータのモデルを扱うかは
継続している課題です
ShExは巨大に感じるものであるだけでなく
その規模は扱うには大きすぎます
だから最初の概念の証明
あるいは演習を始めてみました
yEDというツールを使います
これらのShape Expressionをまず描き…
そしてこのスキーマを
Shape Expressionの隣接する
フォーマットに再生しました
だからこれは既に
Shape Expression言語に尻込みする
聴衆者でも使用できます
しかし実際
これらの視覚識別子には問題があります
なぜならここに誰かがすでにyEDに描いた
スキーマであるからです
ここにも別のものがあります
これが使っているのは…綺麗ですね
これは壁にかけたいですが
相互運用可能ではありません
私の講演の終わりに
このスライドを借りていますが
視聴に来てくれている彼に
感謝します
これが大好きです
RDFは複雑で鬱陶しいと思われていますが
現実はもっと悪く
これはとても簡単です
なぜなら現実のデータの問題は
実に複雑です
RDFを避けることはできますが
複雑なデータやコンピュータの問題を
避けることはもっと難しいです
これはRDFについてですが
これはモデリングにも当てはまると思います
私の講演のポイントは
どのようにモデリングをやっていくか?
ShEx または
視覚的モデルを討論すべきか…
いかに継続していくか?
ご視聴ありがとうございます
(拍手)
(リディア)ありがとうございました
前に来てください
質疑を始めます
質問は?
はい
カメラのためには…
(リディア)ええ
(参加者1)クリスティーナへの質問で
他のシステムとのリンクで
「情報取得(information gain)」
という言葉を使われましたが
統計と確率に使われる
情報理論の計測に使われる
information gainという言葉がありますが…
同じ…
確率理論からの
情報理論からの
information gainと同じ計測を
意味しているんですか
それともなんからの方法で
情報の取得を測る概念的な意味ですか
いいえ実際
シャノン エントロピーを使って
インプリメンテーション測定を
定義しているので それを意味します
詳細な式の説明は避けたかったので…
(参加者1)はいわかります
だから質問したのです
(参加者1)ありがとうございました
(参加者2)質問というより
コメントですが…
(リディア)どうぞ
(参加者2)クオリティや完成性について
項目レベルに気が配られていますね
私が気になることは同じことが
階層に適応されていないことで
階層が的確でないという
問題があると思います
コモンズ検索や他のことで
これが問題になると思います
できることのひとつは
外部の…
外部の類義語集が
その階層を構成する方法として
P4900 広範な概念修飾子を使って
しかしもっとよい役に立つツールと
思うのは
それによって外部の…
類義語集の階層マップを
ウィキデータの項目にインポート
できるようになります
これらのP9400 修飾子と置かれれば
外部の階層から派生した階層を見ることが
SPARQLを通じて
実際よりよいクエリーでできます
例えばポーラ・モーマは
PKMを使いご存知のように
ファッションの仕事を多くしています
それを使って私達は
ヨーロッパファッション類義語階層と
ゲッティAATファッション類義語階層を
取り入れ
そして私たちにとって
実に問題となる
高レベルの項目のどこに
ギャップがあるか見てみます
なぜならしばしばこれらはウィキピディアの
曖昧性解消ページにのみあるので
階層が欠けている より高レベルの
項目がたくさんあり
これは時々クオリティと完成性の意味で
把握しておかなければならないものです
しかし実際
私が書いたたくさんのPullスクリプト
よりもよいツールは…
誰か Pythonで
PAWS Notebook内に
リンクされたデータや
そうでない
外部の類義語集
そしてその階層を取り
それらをP9400値にいれる
クイックステートメントに入れることです
そうすれば後日
叙述がもっと完全になったとき
これらのP9400を更新するために
叙述が更新されるにつれ
より密度が上がるので
システムのその階層が
もっと増えたことを示すように
これらの修飾子も変える必要があります
誰かそれをしてくれれば
とても便利だと思います
また項目レベルのみでなく
階層レベルでクオリティと
完成性を向上する
他のアプローチについても
検索するべきです
(アンドレア)付け足していいですか?
実際にやっています
フィンが語彙的データで作った
Shape Expressionを見ることを
お勧めします
彼はShape Expressionを創り
そして著作者表現にビルトしています
だからウィキデータの中の
リンクされたShape Expressionの構想で
特に
私が正しく理解していれば
それはまさに Gene Wikiの中で
やっていることです
ウィキデータに入れられた
疾患オントロジーがあれば
疾患のデータが入れられ
この類義語集に一致するかを知るに
Shape Expressionを応用できます
またウィキデータに入れる必要のある
他の類義語集や制御された語彙の
他のオントロジーがあります
これはまさにShape Expressionが
有用です
なぜなら疾患オントロジー用の
Shape Expressionが持て
Mesh用のShape Expressionが持て
そして「じゃあクオリティを調べよう」
ということになります
なぜなら制御された語彙がある場合
ウィキデータの内容も
このクオリティに沿っているとしても
それに同意しない
コミュニティもあるでしょう
だからツールは準備されていても
これらのモデルを作り 異なった
ユースケースに適用することになります
(参加者2)外部のオントロジーを
ウィキデータにマップしたものがあれば
Shape Expressionはとても有益ですが
私の問題はそれに至ることです
どれだけの外部のオントロジーが
まだウィキデータに中に無いか
そしてそのギャップがどこになるかを
知るために
より使いやすいツールで
欠けている
外部のオントロジーを探すことは
とても有益になるでしょう
ここでの最も大きい問題は
ツールではなく
ライセンスです
オントロジーをウィキデータに
取り込むのは簡単ですが
ほとんどのオントロジーは
どう言えばいいか…
ライセンスの制御があり
ウィキデータには使えません
(参加者2)とても多くの
一般使用可能な類義語辞書が
文化の分野にはあります
−(アンドレア)話し合う必要がありますね
−(参加者2)そうですね
(アンドレア)では話しましょう
(参加者3)コメントしたいことは
ジェームスへの答えになります
つまり階層がグラフを作り
もしあなたが…
基本的に言いたいことは
階層の共通した問題は
サークル階層です
お互いに戻ってくるようになり
問題がある際には
そのような階層を
持つべきではありません
このおかしなことは
ウィキピディアのカテゴリでよく起こります
カテゴリにたくさんサークルがあります
しかしいいことにはこれは…
技術的に言ってこれは PMP完成の問題で
グラフを作ると簡単に
見つけることができません
しかし多くの開発された方法があり
これらの階層グラフの
問題を見つけられます
例えば「*Finding Cycles Breaking Cycles
in Noisey Hiearachies*」という論文で
英語のウィキピディアのカテゴリの
問題を助けています
これをウィキデータのこれらの
階層に応用することができ
問題になりそうなものを見つけ
支障をきたすものを取り除けばいいです
実際 支障を見つけます
これは単にアイデアですが…
(参加者2)それはいいですね
しかしあなたは存在する
不適切なサブクラスの関係の数を
軽く見ていると思います
全く間違った国に
市を持っているようなもので
地理のツールとして
それを見つけるものがありますが
階層に使えるツールが必要です
完全に欠けている国に相当する
項目がどこにあるか
また全く異なったものに
サブクラスされているものがあるかを
認識するためのツールが必要です
(リディア)あなたの言っていることは
私と私のチームが
私達のデータを再利用する人たちから
よく聞くことと似ています
個々のデータポイントは適正でも
オントロジーなどで見なければ
それは…
なぜこれが起こるかの
もっとも問題となる点は
ウィキデータの編集の多くが
個々の項目で起こっていて
項目が編集しています
例えばそのグラフの他の部分への
全体への影響を理解していない
ことがあります
個々のローカルでの編集の影響を
もっと可視化できる方法について
アイデアがある方がいれば
誠実に編集を加える人たちに
その影響を見せることができれば
これは探求する価値が
あると思います
わあ では君 そして君 そして君
(参加者3)ディスカッションの後で
ジェームスの言ったことに
同意を示したいです
基本的にもっと危険なものは
階層でしょう
階層ではなくてもっと一般的に
ウィキデータ内のサブクラスの関連の
意味論でしょう
この会議のための
最近 言語を学んでいます
例えば多くの場合
言語は同じもののサブクラス
そして一部です
つまり柔軟なオントロジーを
持っているといえます
ウィキデータはときどき
それを自由に表現します
なぜなら
言語のオントロジーは
政治的にも複雑ですね
不明瞭のレベルを表現する立場で
あるのもいいです
しかしそれの機械解読をしたければ
それは非常に問題です
そしてまた
オントロジーは
元々 私達のものであった何かから
インポートされたことはないと思います
言ってみれば初期ウィキピディアから
集めれたものです
このShape Expressionはいいけど
ウィキデータのオントロジーを
外部の資料で
検証したり修正をしたりもでき
素晴らしいアイデアですが
最後に
外部のオントロジーをウィキデータに
反映することで終わりますか?
そしてまた外部の資料から
決して集められない私達のオントロジーの
中核はどうすればいいでしょう
どのように修正すべきでしょうか?
それはそれ自体の問題になるでしょう
外部の何かで
オントロジーを検証するアイデアから
独立して注目しなければ
ならなくなるでしょう
(参加者4)拘束やシェープで
できることは
とても素晴らしいですが
主点ははっきりしていく…
なぜならデータに何を期待するかが
明瞭にできるようになったからです
以前は個々にツールや
スクリプトを作る必要があり
目につきやすく
それについて議論できます
しかし課題は良し悪しではなく
期待です
人によって
ウィキデータでどうモデルするかは
異なった期待と議論があるでしょう
そしてこれは…
現在の状況はその方向に
一歩進み
これに取り組むには
技術的な知識が必要となるので
この拘束を可視化するための
それを理解しやすい
たぶん自然な言語に変換するための
方法が求められ
良し悪し自体はあまり問題ではないです
(リディア)はい
(参加者5)クオリティについて
賛同したいのは…
私はたくさんの問題を見つけました
インスタンスとサブクラスの間の
意見の差にも行き当たりました
これらの状況のエラーだと思い
とても時間のかかるプロセスを
探しました
私が見つけたのは「とても
興味深い項目を見つけたら 何か…
そして派生するすべての
ステートメントを見つけるに
すべてのサブクラスの
インスタンスを使おう」
これはこれらのエラーを見つける
とても有効な方法です
しかしShape Expressionができるか…
何か…
これらの問題を解消するツールとして
使えれば…でも…
(参加者6)構造的な足跡があれば…
構造的な足跡があれば
改ざん可能な…
見てみて
これはできると…
しかしこれが単に
現実のものを
マップしようとしているだけなら
とてもたくさんの頭脳が必要でしょう
(参加者7)Apple Sire Knowlege の
パブロ・メンデスです
私達はどうプロジェクトとコミュニティを
助けるかを見つけるために集まっていますが
クリスティーナは間違って
私達が欲しいものを尋ねました
(笑)そこで私が思うのは
検証可能性に関して
多くのことが求められます
それはプロジェクトやコミュニティ
その信頼性の中核となるもののひとつです
すべてのステートメントは等しくなく
とても争われるものや
簡単に推測できるものとか
例えば誰かの誕生日は簡単に
検証でき
今日のキーノートのように
性別はもっと複雑です
もう少しデータのクオリティの分野で
信頼性と検証可能性に関して
知っていることを話してもらえますか
あまりなければ
もっとあって欲しいと思います(笑)
(リディア)はい
明らかにあまり言うことがないようです(笑)
(アンドレア)できることがたくさんありますが
昨日 あなたと話したように
昨日習った私の好みの例は
もう昨日拝み倒されたものですが
Q2 地球に行くと
地球は平面というステートメントがあります
この例が大好きです
なぜならそれを主張するコミュニティがあり
検証可能なリソースがあるからです
これは誠実な例で
拝み倒されるべきでなく
ウィキデータにあるべきです
Shape Expressionは
ここで非常に役立ちます
このユースケースにとても
関心があるとか
これは同意しないユースケースとか
しかしまたこれはいいけど
関心があるというユースケースもあります
ここに例があるとします
グルコースがあります
生物学者なら
グルコースの分子構造の
化学的拘束には興味がないでしょう
すべてのグルコースに関することは
同じです
でも化学者なら
これを聞くと気になると思います
200ほどのものがあります
だから複雑のShape Expressionがあります
ここで
化学者の立場で
これに対応します
そしてあなたが
生物学的なユースケースから
Shape Expressionを適用したいとします
そして共同したければ
エリックと ShExについて
話すとよいでしょうが
この行程はまだ始まったばかりですが
この分野で非常に
重要なものと思っています
(リディア)あちらの方
(参加者8)ディスカッションでの
幾つかの点についてアイデアがあります
失わないように…
3つのアイデアが…
ちょっと前にジェームスが言ったことで
上部のオントロジーのための開始から
ウィキデータにはとても
大きな問題があります
WikidataConで2年前に
話しました
そしてウィキマニアについて
話し合いました
ウィキデータの会議があると
いつもこれを話します
なぜなら目につくレベルの
とても大きな問題だからです
何がエンティティで
何が workで 何も分野か
そして芸術
もっとも大きな概念です
これは実際 グローバルなオントロジーの
最大の弱点です
なぜなら人々は常にこれを整理し
すべてを線で分けようとしているからです
覚えている人もいると思いますが
世界中のすべての市を無意識に
壊した人がいます
地理的な項目ではないので
拘束違反に満ちて
誠実な意図でしたが
項目の間違いを直そうとしていたのに
すべてを壊していしまいました
これをどのように解決できるが
私はわかりません
なぜなら実際に写してこれる
外部の機関がないからです
皆さんが作業している
例えば 芸能データベースだとします
直接 芸能のラベルに行くか
あるいはエンティティがなにかの
論理的概念には行かず
これは実際に…
このレベルで機能している
データベースは知りませんが
これがウィキデータの弱点です
データのクオリティを話すにおいて
実際もっと大きなといえるでしょう
ここで言ったと同じ様に…
失礼 話題を変えてしまっています
クオリティについては
別のセッションで言及しました
それに関しては 実際
よいモデリングを行っている人がいて
ShExを活用したりして
それを行っています
ウィキデータでは見れません
ShExは見えません
ディスカッションページでは
WikiPeojectを見ず
そして時には
プロパティのトークページも見ません
そこには明確に a)このプロパティが
そのために使用されると記載されています
先週あるプロパティに
拘束を加えました
そのプロパティの創作の
ディスカッションに
この拘束は明確に記述されていました
私はその拘束を加える技術部分を
作っただけですが
誰かに「私の編集をすべて
台無しにした」と言われました
その人は過去2年 このプロパティを
間違って使っていました
プロパティは実際はとても明瞭ですが
警告などがなく…
だからウィキマニアの
ピンクのポニーのように
WikiPeojectをもって見やすく
ShExをもっと見やすくすべきです
それがクリスティーナは
言ったことです
既存の解決策が見られていないという
問題があるんです
このセッションでは
もっとShExを作ろうとか
整理する人の作業を促進しようとか
話していますが
ウィキデータの一日目から
整理をしてきていて
グローバルには追いついて行けていません
追いつけていけない訳は…
名前が複雑だと知っていて
私だけで整理の作業をしていて
すべての中国人の研究者に
ラテン語の名前を追加する人がいるとしたら
何ヶ月も整理にかかり
一人ではやっていけません
ではその人はバッチで
その作業をしたでしょう
私たちが必要なのは…
ツールの問題ではなくと
見て理解されるというが問題です
既にツールはたくさんあります
(リディア)そうですね
しかし時間のようで(笑)
締めくくりましょう
たくさんのコメントを
ありがとうございました
今日 この後もディスカッションを
続けてください
皆さんのご意見ありがとうございました
(拍手)