-
[ウィキデータと言語]
-
[リディア・ピンチャー]
[ウィキデータと言語]
-
ありがとうございます
-
この会議で大きなテーマの1つは
言語です
-
これからお伝えするのは
-
言語に関する現状と
-
将来の展望についての概要です
-
ウィキデータの使命は
-
もっと多くの人が豊富な知識を
利用できるようにすることです
-
言語はそれを実現するのに
極めて重要です
-
特に 私たちの生活はますます
テクノロジーに依存しているため
-
今日の基調講演で
講演者が話していたように
-
ある言語を話せないことにより
-
テクノロジーが
人を置き去りにする場合があります
-
それは良いとは言えません
-
何とかしたいと思っています
-
改善のためには
少なくとも 次の2つが必要です
-
1つは 皆さんのの言語で
コンテンツを提供することです
-
2つ目は アプリケーションなど
何においても
-
皆さんの言語で
やりとりすることです
-
ウィキデータは
この2つの点に役立ちます
-
まず 皆さんの言語での
コンテンツですが
-
これは基本的に
項目とプロパティにある内容で
-
私たちが世界を表す方法です
-
必要なものは
これだけではないですが
-
これにより
改善が進むはずです
-
もう1つは
皆さんの言語によるやりとりです
-
ここが語彙素の出番です
-
携帯端末の
音声アシスト機能を利用する場合や
-
デバイスに文章を翻訳させたい場合
などに活躍します
-
では 皆さんの言語でのコンテンツを
見ていきましょう
-
これは items(項目)と
properties(プロパティ)の内容です
-
コンテンツには
項目とプロパティにあるラベルが重要です
-
話題のエンティティが
何と呼ばれるか知る必要があります
-
「Q5」が話題である場合
-
それは英語話者にとっては
「human」であり
-
ドイツ語話者とっては
「mensch」である
-
というようなものです
-
項目とプロパティに付いた
こうしたラベルは
-
人間と機械 そして人間と人間の
-
ギャップを埋めてくれます
-
それにより 既存の知識が 皆にとって
さらに利用しやすくなっています
-
これには期待が持てますね
[範囲の状況は?]
-
実際の状況はどうでしょうか
-
このようになっています
-
ここで分かることは
-
ウィキデータにある
項目の大半には
-
2つの言語で
ラベルがあるということです
-
それに次いで
1つ、3つの言語
-
その後は悲しい状態です
-
(静かな笑い)
-
これを改善しましょう
-
でも一方では
-
もっと悪い状況を想像していました
-
平均は1言語だと思っていましたから
-
2言語だと分かって満足です(笑)
-
では次
-
興味深いのは 項目とプロパティにある
ラベルの数だけでなく
-
どの言語か知ることも
興味深いものです
-
ここに示されているグラフは
-
Items(項目)にラベルがある言語です
-
大きく占めているのは
Otherです
-
グラフが読めるよう
-
上位100の言語を抽出したので
その他がOtherになっています
-
英語、オランダ語
-
フランス語
-
そして特に アストゥリアス語
-
- (聴衆1)やった!
- 嬉しいですね!
-
不均衡になっていることが
ここで分かりです
-
英語が多くの比率を占めています
-
同様にProperties(プロパティ)の
グラフを見ると
-
こちらのほうが
均衡が取れています
-
これはプロパティがはるかに
少ないことにもよるのでしょう
-
ですから比較的小さなコミュニティーでも
引けをとりません
-
皆さんの言語に
ローカライズすることは
-
ウィキデータの
重要な部分でもありますから
-
これは良いことです
-
ここで強調したいことは
アストゥリアス語で
-
小さなコミュニティーでも
-
熱意と仕事で
大きな変化をもたらせるということです
-
素晴らしいことです
-
皆さんに質問です
-
ウィキデータで外部識別子を除く
すべてのプロパティのうち
-
どれに多くのラベルが
つまり多くの言語があるでしょうか
-
(聴衆)[聞き取り不能]
-
instance of
という声があがりましたね
-
違います
-
正解はimageです(笑)
-
あなたが instance ofに
まだラベルがない言語を話すなら
-
追加してください
-
現在 ラベルの数は148です
-
別のスライドです
-
このグラフは
-
どれだけのコンテンツが
ある言語で利用できるようになっているか
-
またどれだけそのコンテンツが
利用されたかを示しています
-
これは曲線ですよね
-
大半のコンテンツに
英語のラベルがあり 英語で利用でき
-
たくさん利用されています
-
そして値は下がっていきます
-
ですが 外れ値もあり
-
必然的に予想されるよりも
たくさんのコンテンツがあります
-
これはとても良いことです
-
課題はそれほど利用されていないことです
-
アストゥリアス語やオランダ語は
もっと利用度が高いはずです
-
コミュニティーに協力することにより
-
収集データの利用度が向上するのは
良いことだと思います
-
こちらと先ほどの分析は
良い結果を示しています
-
ですが 利用度が高い項目に
-
より多くのラベルがある
傾向があります
-
または多くのラベルがあると
利用度が高いのでしょうか
-
そこで疑問は
-
私たちは強力な言語のみを
サポートしているのか
-
または あらゆる言語を
サポートしているのかです
-
こちらは言語の分類です
-
同じ分類の言語には
同じラベルがある傾向があります
-
クラスタする傾向が見られます
-
こちらは同様のクラスタ分析ですが
-
言語の健在度、利用度、
危険度に基づいて
-
色分けされています
-
良い結果として
-
安全言語と危機言語とで
-
異なるクラスタを
形成していないことです
-
すべて混じり合っています
-
この逆の結果よりも
ずっと良いことですよね
-
安全言語
強力な言語の間だけで
-
助け合っている
ということではありませんから
-
これはとても良いことです
-
これを見た時
良いことだと思いました
-
これも同様の分析データで
-
言語状況と
言語が所有するラベル数です
-
安全言語(分類1)は
明らかに勝っており
-
予想どおりです
-
ですが
-
分類2(不安定)、3(危機)
4(極めて危険)に分類される言語でさえ
-
ウィキデータとその他における
表出に関して
-
それほど悪くはありません
-
それが分かって良かった点です
-
同様に
-
例えばウィキペディアでの
-
こうしたラベルのコンテンツの
利用度を見ると
-
ここでも同様の結果が分かります
-
つまり こうしたコミュニティーは
-
例えば 利用度の高い項目に
ラベルを入力することにより
-
その時間を
有益に活用しているのです
-
外れ値については
-
コミュニティーが
その仕事が最も役立つ場を見つけられるよう
-
私たちが協力できるところだと思います
-
総合的には
この分析結果に満足しています
-
ウィキデータの項目とプロパティを
ご説明しました
-
次に皆さんの言語でのやりとりを
見ていきましょう
-
ウィキデータの語彙素です
-
ここで語彙、語形、語義を表します
-
去年の5月からこれを行っていて
-
コンテンツは増加してきています
-
こちらの青が語彙素で
-
赤が語彙素における語形
-
黄色が語彙素における
語義を示しています
-
後でも取り上げますが
コミュニティーの一部は
-
語彙素の語形や語義の作成に
たくさんの時間を費やしています
-
これは有益です
-
皆さんが必要なデータセットの中核が
構築されるからです
-
次に ウィキデータに語彙素がある
すべての言語を見てみました
-
つまりウィキデータにある
言語の数です
-
現在 言語の数は310です
-
では ウィキデータの
現在の語彙素数に関しては
-
何語が第1位だと思いますか
-
(聴衆)ロシア語
[聞き取り不能]
-
何ですって?
-
(聴衆2)ドイツ語
-
先ほど聞こえてきたように
-
ロシア語です
-
ロシア語が抜きん出ています
-
相対感が分かるように
ご説明しますと
-
異なる意見はありますが
-
例えば 別の言語で
千から3千語で会話レベル
-
4千から1万語で
上級レベルに達するそうです
-
ですからまだ
そこまでのレベルには達していません
-
1つ注目していただきたいのは
ここのバスク語で
-
約1万の語彙素があります
-
次に こうした語彙素に対する
語形の数を見てみると
-
バスク語が
かなり上位にあります
-
これはすごいですよね
-
この理由を説明する講演にも
ぜひご参加ください
-
次に 言葉の意味に当たる
語義の数を見てみると
-
バスク語がなんとリストの第1位です
-
これは拍手に値すると思います
-
(拍手)
-
皆さんに別の質問です
-
現在 最も翻訳されている
語彙素は何でしょうか
-
(聴衆)ネコ
ダグラス・アダムス[聞き取り不能]
-
すべて良い推測ですが 違います
-
これです
ロシア語の「水」です
-
ウィキデータにある語彙素や語形や語義の
数についてはお話しましたが
-
それは必要なことの1つで
他に必要なのは
-
こうした語彙素や語形や意味を
-
機械に読める方法で
表現することです
-
それには 文が必要で
項目はその一例です
-
使用するプロパティの1つは
文例です
-
これで データを使用している誰もが
-
文脈に応じて
その言葉の使い方を理解できます
-
例えば 引用などが考えらます
-
ここではポーランド語が第1位です
-
ポーランド語話者の方々
頑張りましたね
-
もう1つ役立つプロパティは
IPA(発音記号)です
-
語彙の発音の仕方です
-
ロシア語は IPA文を
たくさん必要としていますね
-
ですがここでも
ポーランド語が第2位です
-
ウィキデータには
音声データもあります
-
発せられた言葉を収めた
ファイルへのリンクがコモンズにあるので
-
発音記号を読めない場合などに
-
ネイティブ スピーカーの
発音を聞くことができます
-
またウィキベースを動力とする
-
Lingua Libreという
プロジェクトがあります
-
ご自分の言語での
言葉の録音に協力して
-
ウィキデータの語彙素へ追加すると
-
他の人がその言葉の
発音の仕方を理解できます
-
(聴衆2)[聞き取り不能]
-
「Lingua Libre」と検索すると
-
テレグラムに
誰かがそれを投稿してくれるはずです
-
彼らは素晴らしく
-
ウィキベースで
優れた仕事をしています
-
次に知りたいのは
将来の展望です
-
お見せしたデータに基づくと
-
ウィキデータの言語を見ると
-
もっと多くの人に 豊富な知識への
アクセスを提供しようと
-
長い道のりをここまで来ました
-
ですが この先にも
たくさんの仕事が控えています
-
例えば 皆さんが協力できることとして
-
マラソンのように
皆で集まって一斉に
-
ウィキデータで
項目にラベル付けをするとか
-
皆さんの言語の
語彙素を編集して
-
最も利用されている言葉を皆さんの言語で
ウィキデータに収めるようなことです
-
またはTerminatorのような
ツールを使用して
-
皆さんの言語で
まだラベルが付いていない
-
最重要項目を
見つけてもいいでしょう
-
重要度を測るには
-
文中のリンクのような
他のウィキデータの項目における
-
利用頻度によります
-
もちろん 語彙素に関しては
-
現在 基本的な語彙素は
カバーしていますので
-
今後 大事なのは
開発とさらなる文の追加です
-
しっかりとした基礎を築いて
-
その上に有意義な
アプリケーションを開発することです
-
その臨界点には近付いてはいても
-
基礎の上に本格的なアプリケーションを
開発できる所までは到達していないからです
-
皆さんにその仕事に
ご参加いただければと思います
-
ここでちょっと
友人から協力してもらいましょう
-
ブリューノ
こちらへご登壇を
-
Lexicon Mask
(辞書マスク)のお話をどうぞ
-
(ブリューノ)ありがとう リディア
-
Googleでの仕事をお伝えする
時間をいただきまして
-
ありがとうございます
-
デニーのことは
ご存知の方も多いでしょう
-
Googleで
私は言語学者ですから
-
言語に熱意のある方々に囲まれ
うれしく思います
-
私たちは
辞書を開発しています
-
また皆さんに役立つテクノロジーや
アプローチを開発しています
-
背景を少々お伝えしますと
-
これがここでお話している
辞書編集の背景です
-
辞書データベースを開発した際に
-
恐らくご存知のように
-
データの維持や一貫性の保持や交換に
悪銭苦闘しました
-
語彙素や語形を表している
-
特性やプロパティをまとめようと
何度も試み
-
完全には解決していませんが
-
その面でいくらか統一されています
-
ですが不足していたのは―
-
これはGoogleでのプロジェクト
開始時から抱えていた課題ですが
-
内部構造を持つ努力でした
-
しかるべき語彙記載項や
-
データの種類や
所有情報の種類や
-
予期される規定などを
表す内部構造です
-
そこで Lexicon Mask
というものを考案しました
-
Lexicon Maskが表すのは
エントリに予期される内容で
-
完了予定の
辞書編集エントリです
-
これには
語彙に予期される語形の数と
-
各語形に予期される特性の数の
双方が含まれます
-
これはイタリア語の形容詞の例です
-
イタリア語では 形容詞に対して
4つの語形が予期されます
-
性や数の特性に関して
-
各語形に特別な組み合わせがあります
-
これがイタリア語の形容詞に
予期されることです
-
もちろん 極めて複雑な
マスクになる可能性もあります
-
例えば フランス語の動詞活用は
かなり広範囲です
-
ロシアのマスクは
画面に収まらないので
-
今は表示されていません
-
詳細規定もあります
-
語形レベルで識別するからです
-
これはロシア語の名詞で
-
異なる語形での
事例数が3つありますが
-
エントリレベルの規定もあって
-
特に名詞に
-
固有の性と
固有の有生性の特性があり
-
これもマスクの中で規定されています
-
また マスクが一般的に
しかるべきエントリに与える規定を
-
識別することが必要ですが
-
言語に発生する
語形や語彙の欠如のため
-
より小さなマスクになる
可能性もあります
-
これがフランス語の動詞の
最もシンプルなバージョンで
-
例えば「雨が降る」
「雪が降る」のような
-
天候に関する動詞すべてに
三人称単数があるだけです
-
ですからこれら2つのレベルを識別します
-
Googleでこれを使用する方法は
-
使いたい辞書がある場合
-
文字通りマスクを
辞書に投げて
-
すべてのエントリを
マスクを通して
-
どのエントリに
構造的問題があるか
-
語形や特性が
不足しているのかを見ます
-
問題があれば
人が検証を行うか
-
マスクを通過するかを見ます
-
ですから 構造の品質管理には
非常に有益なツールです
-
今日発表いたしますのは
-
私たちのマスクの
オープンソース化です
-
これがスキーマです
-
ご希望があれば
公開して
-
ShExファイルとして
ウィキデータに提供します
-
これがドイツ語名詞に対する
ShExファイルです
-
内部仕様からオープンソース仕様への
コンバージョンに
-
デニーが取り組んでいます
-
現在 25言語超をカバーしています
-
ウィキデータの発展を
期待しているだけでなく
-
他の言語に対する
協働の機会を求めてもいます
-
ダニーがルーカスと進行中の
コラボレーションの1つは
-
ルーカスが持つ優れたツールで
-
UIのヘルプで ユーザーや貢献者に
語形を追加してもらうものです
-
フランス語で
形容詞を追加したい場合
-
UIが予期される語形の数と
-
語形がどんな特性を持つはずかを
教えてくれます
-
ですから私たちのマスクが
定義と拡張に役立ちます
-
以上です
-
(リディア)ありがとう
-
(拍手)
-
ご質問はありますか?
-
語彙素について
詳しく知りたいですか
-
- (聴衆3)知りたいです
- 分かりました(笑)
-
(聴衆3)私の質問は
-
もっと多くの言語で もっと多くの人に
利用できるようにすると仰いましたが
-
ウィキデータで使用できない言語は
たくさんあります
-
ウィキデータとしての解決策は?
-
ウィキデータで
使用できないというのは
-
ラベルの記載のお話ですか?
-
- (聴衆3)ラベルや説明です
- ええ
-
語彙素に対しては
少し異なります
-
語彙素には
その制限がないからです
-
項目やプロパティのラベルには
いくらか制限があります
-
ウィキデータでは
-
誰もがすべてを行えるようには
していないからです
-
そうすると
管理が難しくなってしまいます
-
1つの言語に取り組みたい
小さなコミュニティーであっても
-
ご要望いただければ
実現させます
-
(聴衆3)5月にプラハの
ハッカソンで要望しましたが
-
私たちの言語を使えるようになるには
8月にまでかかりました
-
- ええ
- (聴衆3)遅いのです
-
あいにく時間がかかります
-
現在 言語委員会と
-
基本部分の解決に取り組んでいます
-
どの言語が実際「許可」されるか
について同意を得るのは
-
非常に時間がかかっています
-
これがご要望に対して
必要以上に時間がかかった理由です
-
(聴衆3)ありがとう
-
(聴衆4)ありがとう
-
リディア
見せていただいた統計に
-
言語ごとの語彙素の数がありましたが
-
データポイントとして
すべての語形を合計したんでしょうか
-
それとも語彙素だけですか
-
(リディア)これですか
-
どれですか
-
(聴衆4)それです
-
この数は[聞き取り不能]
-
すべての語彙素に対するすべての語形ですか
存在する語彙素の数ですか
-
- これは単に語彙素数の数です
- (聴衆4)そうですか
-
では単なる統計値ですね
-
もし語形から成るものだったら...
-
それが質問の理由です
-
屈折形態を伴うすべての言語―
-
例えばロシア語やセルビア語
スロベニア語などには
-
語形が数多くあることになるので
元から有利です
-
それがここの語形数に
影響しています
-
(聴衆4)分かりました
ありがとう
-
(聴衆5)簡単な質問ですが
-
実際の項目とプロパティに関し
-
私が理解している限りでは
-
与えられた
どのラベルや説明にも
-
現在 実際のソースを
提供する方法はないんですよね
-
例えば 項目のプロパティの場合
-
相反するラベルが得られるかもしれない
-
そうです
-
先ほど 固有性というお話がありましたが
-
例えば 芸術家が あるソースによれば
ノルウェー人であり
-
別のソースによれば
サーミ人であるとか
-
エストニア人であったりします
-
公式の辞書の中でその言葉を
公式の用語に変える必要がありましたが
-
理由を示す方法がありません
-
このソースは何だったかとか
-
変更理由とか
以前の内容などを示せません
-
誰かが理由もなく
変更したように見えてしまいます
-
言語データに対して
適切なソースを持てるように
-
これを変更する計画はありますか?
-
それは部分的に可能です
-
例えば 人物に対する項目があって
-
その人物に関する
文や氏名などが続きます
-
そこで出典を付けることができます
-
ラベルや説明の出典を
-
今より複雑にするのは避けたいですが
-
これは 文上のどの出典によっても
取り上げられていないと
-
人々が強く希望するのであれば
-
議論の余地はあります
-
ですが 数少ないであろう事例のために
-
複雑になってしまうのが心配です
-
皆さんが強く望まれるものなら
-
喜んでそうしたいのですが
-
(聴衆5)追加されるのであれば
デフォルトではなく
-
初心者などには表示されない
インターフェースにして
-
「詳細を追加するなら ここをクリック」
などとするといいでしょう
-
実際 問題になりうる頻度はどうでしょう
-
(聴衆5)エストニア語では
例えば―
-
これは他の言語にも
当てはまると思いますが
-
例えば 正規に英語に翻訳されている
-
特定の行政区の公式名があって
-
それが私のユースケースでした
-
かつて「parish」という
言葉を使っていて
-
それが元のエストニア語の言葉では
教会区というような意味であり
-
それが由来でしたが
-
それは現在エストニア語で
公式の翻訳ではありません
-
そのケースでは
公式名を文に追加して
-
出典もそこに追加できます
-
(聴衆5)分かりました
-
他にご質問は?
-
(聴衆6)意見が2つあります
-
良い成績の言語として
アストゥリアス語を特に挙げられましたが
-
誤ったアーティファクトだと思います
-
教えてください
-
(聴衆6)それはボットが
-
人名や固有名詞を
貼り付けたものだと思います
-
「フランス語やスペイン語でも
まったく同じ」と言うように
-
ただ大量にコピーしたんです
-
証拠の1つに
アストゥリアス語で
-
固有名詞以外の
プロパティ名や項目名などで
-
翻訳を必要としている取り組みは
あまり見られません
-
心が痛みます
-
(聴衆6)分かります
水を差してしまいましたよね
-
でも 良いこともあります
発音の数です
-
恐らくご存知のように
コモンズは発音のファイルがいっぱいで
-
例えば
-
オランダ語はコモンズにすでに
30万以上の発音のファイルがあり
-
方法はどうあれ
取り込まれる必要があるだけです
-
サイドプロジェクトを
探している方がいれば
-
大量に
-
分類された発音のファイルが
コモンズの
-
「Pronunciation(発音)」
項目に言語別にあり
-
語彙素との一致と語彙素への掲載を
ただ待っている状態です
-
ロードマップについて
言えることはありますか
-
投資額とか
-
来たる年に
語彙素から期待できることなど
-
私も待ちきれない一人ですから
-
待ちきれないですか?(笑)
-
- (聴衆6)期待してます
- はい(笑)
-
現在は ウィキベースと
データの質のほうに力を入れて
-
これがどれだけ
けん引力を得られるか見ています
-
その次に 解決が難しい
問題に取り組み
-
その後 辞書学データの
さらなる改善に戻る予定です
-
あなたにお聞きしたいことの1つは
-
次のステップとなる箇所と
-
改善点を見たい箇所です
-
そうすれば
実現の方法を考えます
-
もちろん仰ることは正しく
-
技術面での仕事は
まだたくさんあります
-
(聴衆7)バスク語の言葉を
語形と一緒にアップロードしていた際に
-
こんなことがありました
-
先週 私たち二人とも
自分たちが初だと言っていたら
-
報道されて
-
「バスク語で初の業績―
彼らが初の何かを」と
-
(笑)
-
そしてこれは何のためかと
聞かれたんです
-
私たちには
良い答えがありませんでした
-
これによって
-
コンピュータが私たちの言語を
理解しやすくなるのは分かりますが
-
将来 どんなツールを
開発できるでしょうか
-
私には分かりませんが
-
これに対する
良い答えをお持ちでしょうか
-
(笑)私に良い答えがあるか
分かりませんが
-
答えはあります
-
現在は 先ほどお伝えしたように
-
数々の興味深いツールを
開発できるような
-
臨界点には達していません
-
でもすでに
ツールはいくつかあります
-
例えば つい先日
エスター・パンデリアが
-
ツールをリリースしました
-
それは世界の言語が
-
どこで話され どこから来ているか
分かるものです
-
確かではありませんが
-
ウィキデータのプロジェクトチャット上で
公表されました
-
お調べいただけます
-
ウィキペディア開始時に
見ていたように
-
最初のツールを見ています
-
最初は...
ネットワークと同様
-
徐々に繋がりが明らかになります
-
データが増えるにつれ
-
臨界に達して
-
性能の良い
アプリケーションが可能になります
-
例えば ヒストロペディアや
-
携帯端末での質疑応答や
-
Platypusなどのようなものです
-
語彙素でも
同様のものを見ています
-
このようなものを
開発できる段階には来ていて
-
関連性も分かっていて
-
別の言語へ
言葉を翻訳できる段階なので
-
開発につれ
より多くの言葉を表すにつれ
-
たくさんのことが可能になります
-
何が可能になるかというと
-
基調講演でベンが
翻訳についてお話したように
-
1つの言語から別の言語へ
翻訳できます
-
また同僚のイェンスが
いつも言うことには
-
欧州連合が
翻訳者を求めているそうで
-
マルタ語から
スウェーデン語へ翻訳できる―
-
- (聴衆8)エストニア語です
- 失礼
-
あまりない組み合わせですね
-
こうした言語がすべて
機械で読める1か所の場所にあれば
-
翻訳できるのです
-
エストニア語からマルタ語へ
またはその逆でも翻訳できる
-
辞書が手に入るのです
-
今までは 例えばコストの面から
作業を正当化できるほど
-
十分な需要がなかったため
-
これまで辞書でカバーされていなかった
-
言語の組み合わせがあったわけですが
-
それが今は行えます
-
それと テキスト生成です
-
ルーシーが先ほど
-
テキスト生成に関して
-
少数言語で
ウィキペディアの記事を開始するため
-
ハッティとどのように
取り組んでいるかをお話しました
-
それには 言葉に関するデータが必要で
-
そのためには その言語について
理解する必要があります
-
そうしたことが
今私に浮かんだアイデアです
-
その壮大なデータが得られた場合
何をしたいか
-
皆さんには もっとアイデアが
あるかもしれませんね
-
(聴衆9)語彙素のトピックから
外れますが
-
質問させてください
-
コミュニティーの一員として
仕事の優先順位に
-
私はどう影響を与えられるでしょうか
-
新規ユーザーが
秘密の合言葉なしに
-
編集したい言語を
示せるようにできるのでしょうか
-
ウィキペディアのトピックなしの
-
技術的要望リストがいつの日か
訪れるかも知れません
-
7年間放置されていたことが
-
全員一致の意見で直すことに
なるかも知れません
-
これについて
お考えやご意見は?
-
仰っているのは
-
ウィキデータに
ログインしていない人が
-
簡単に言語を変更できないという
問題ですか?
-
(聴衆9)いいえ
新規ユーザーです
-
新規ユーザーが
ログインしていれば
-
ページ上部で
言語を変更できますし
-
ラベルの説明が
[聞き取り不能]場所に
-
それが表示され
-
編集できます
-
(聴衆9)大抵の
ワークフローでは
-
複数の言語を望めば
利用できますが
-
いつもそうとは限りません
-
この講演の後に
詳しく伺いましょう
-
いいですね
他にご質問は?
-
どうぞ
-
(聴衆10)良いプレゼンでした
-
ウィクショナリーのコミュニティーとの
相互関係の状態について
-
ご意見をください
-
私が見ている限り
-
作業の重要な要素のインポートについて
議論がありますが
-
ライセンスの問題や
異論などがあるようです
-
はい
-
ウィクショナリーのコミュニティーは
-
ウィクショナリー開発に
長い時間をかけてきています
-
彼らが開発してきた
-
驚くほど難しく複雑な
テンプレートは
-
きれいな表を作成して
フォームを自動生成してくれたり
-
いろいろと素晴らしく
並外れたことをしてくれます
-
もちろん 彼らは多くの時間と努力を
費やしてきています
-
当然のことながら
-
ただそんな具合に
誰かの手に渡したくはないのです
-
ライセンスの問題は
そこから生じているものもあります
-
それでいいのです
-
最初のウィクショナリーの
コミュニティーが調整を行い
-
ウィキデータへデータを
インポートする話をしています
-
ご覧になったロシア語は
その一例で
-
これは今後も起こると思います
-
時間のかかるプロセスです
-
ウィキペディアへ
ウィキデータのデータを採用するのと同様
-
時間がかかります
-
語彙素データを
利用しやすくする一方で
-
ウィクショナリーでも
それを活用し
-
語彙素とウィクショナリー間で
データを共有できるようにするのは
-
現状では困難です
-
ウィキペディアであったように
とんでもないことです
-
誕生日プレゼントを
お待ちください(笑)
-
どうぞ
-
(聴衆11)ばかげているので
言いたくなかったのですが
-
逆の見方をしていました
-
ウィクショナリーに
すでにコンテンツがあっても
-
ライセンスで違いがあるため
-
ウィキデータに転送できないと
分かっていますが
-
それに対処できるのではと
考えていました
-
例えば コミュニティーの許可を得た後に
-
公開投票などを行い
-
コミュニティーに対しては
アクティブなメンバーが投票し
-
コンテンツ転送の
承認や可否について発言し
-
それに対し ウィキデータの語彙素に
取り組めばいいと思います
-
もったいないからです
-
それはまさにウィクショナリーの
コミュニティーにいる人たちが
-
快く議題として取り上げるお話です
-
私たちがそこで押し付けるのは
厚かましいですが
-
話し合うのは
確かに価値があると思います
-
ですが 法的に許可されることと
-
私たちがすべきことと
-
人々が望むこと
望まないことの間には
-
相違があると
理解するのも重要です
-
ですから 法的に許可されても
-
ウィクショナリーの
コミュニティーが望まなければ
-
少なくとも
気を付けたほうがいいでしょう
-
マイクをお持ちください
-
(聴衆12)すべて素晴らしいお話でした
-
すぐに思ったことは
私の生徒にどうやって伝えようかとか
-
課程にどう組み込もうかとか
-
私たちの仕事や
教育の場面などでした
-
私には 現時点で
まず十分な知識がありません
-
ですが 今あるドキュメンテーションは
-
改善の余地があると思います
-
そこでリクエストしたいのは
-
仕組みを説明してくれる動画です
-
それがあれば 活用できます
-
生徒に参加してもらったり
-
どれだけ素晴らしいかを
人々に理解してもらえます
-
ぜひドキュメンテーションと
教育についてお考えください
-
多くの成果が得られるはずです
-
たくさんの仕事を…
-
小中学校とは言いませんが
-
若い生徒たちに行ってもらえます
-
その可能性を
取り入れていただければと思います
-
現時点で 私は十分に理解していないので
-
タスクの作成や実用的な仕事が
できるわけではありません
-
どんな支援や意見についても
ここのどなたかがお持ちであれば
-
ご自身のご意見も含め
お聞かせいただければ
-
ええ 後ほどお話しましょう
-
他にご質問は?
-
先ほど挙手がありましたが
-
どなたでしょう
-
(発言者13)ウィクショナリーから
インポートできないなら
-
他のパブリック ドメインのソースや
あらゆるデータを見つけるための
-
協調努力はありますか
-
それを事前にフィルタリングしたり
整理したりすれば
-
人々が確認して
インポートしやすくなります
-
努力はあります
-
私の知る限り
バスク語がその努力の1つですが
-
それについて
仰りたいことがあればどうぞ
-
(聴衆14)[聞き取り不能]
-
解決策は
それに対する支払いです...
-
私たちには通常 一緒に仕事をしている
委託業者との契約があり
-
彼らが辞書関連の仕事をしています
-
他の業務に加えて
辞書関連の仕事をしています
-
私たちは業者と生徒向けの無料の
辞書を開発する契約をしており
-
最も一般的な言葉を[キャスト]し
-
外部識別子やスキーマと共に
アップロードするものです
-
それをパブリック ドメイン(CC0)に
することには議論がありました
-
CCを伴う辞書を
所有しているからです
-
彼らは相違点を理解していました
-
ですから 議論はありましたが
-
将来 私たちがツールや事例を
提供できると思いますし
-
私たちが扱える
他の辞書も予定されています
-
ウィクショナリーもその方向に
進み始めたほうがいいと思いますが
-
それはまた
別の大きな議論が必要でしょう
-
それに加えて
-
オクシタン語の辞書に取り組む
オクシタン出身の人々と
-
リーアが連携して
-
現在 シュメール語の
コラボレーションに取り組んでいます
-
他にご質問は?
-
(聴衆15)オクシタン語のデータを
インポートしたいのですが
-
いいタイミングですね
-
(聴衆15)少し問題があり
-
多様な語彙素のすべてを表す
方法が分かりません
-
私たちには6つの方言があり
-
どの方言が使われているかを
語彙素に示したいのです
-
でも それを行うのに
適切なC0文がありません
-
セグメントが存在しない限り
-
[聞き取り不能]ができません
-
文へエキスポートできるようになった時に
-
再度行う必要が出てくるからです
-
たくさんの人が依頼する
文ではないので 複雑です
-
大抵は少数言語に
関係する文だからです
-
依頼するのが一人だけのこともあります
-
ですが バスク語の同僚たちにとっては
-
一人でも 何千もの他の人に
力を与えられるかもしれません
-
ですから 依頼が多くなくても
-
重要なのです
-
新しいプロパティの提案は
済んでいますか?
-
それとも提案に協力が必要ですか?
-
(聴衆15)4か月前にお願いしました
-
では誰かにそのプロパティの提案に
協力してもらいましょう
-
この部屋に 実現してくれる人が
十分いるはずです
-
(聴衆15)プロパティ提案
[フランス語]
-
回答がなく方法が分かりません
-
私たちはウィキデータの
コミュニティーには属していませんから
-
ええ ですから
ここに協力できる人たちがいます
-
ご協力いただける方は
手を挙げてください
-
(聴衆14)私がやります
-
語形の異形だけでなく
-
座標や何らかのマッピングで
それを地理的にも扱えるのが
-
とても興味深いです
-
異なる発音があるということも
-
たくさんの言語に
当てはまることだと思います
-
実現に向けて取り組むべきです
-
プロパティを検索します
-
いいですね
-
あなたのプロパティ提案に
サポートがあるはずです
-
ありがとうございます
-
他にご質問は?
-
フィン
-
フィンは辞書学データを基に
開発している者の一人です
-
(フィン)ちょっとした質問ですが
-
異なる綴りについてです
-
作業が難しいようです
-
もちろん 同じ言葉に
複数の語形がある場合はありますが
-
どうやら…
-
そうでなければ
規定が難しく
-
単に小さな技術面での問題なのか
分かりませんが
-
後で一緒に話しましょう
-
例を見てみたいです
-
アザーフ
-
(アザーフ)ありがとう
-
私の母国語ヘブライ語から
具体例を挙げますと
-
ヘブライ語には
ほぼすべての言葉の表現に
-
2つ主な異形があります
-
伝統的な綴りでは
多くの母音が除外されるからです
-
ですから 聖書や詩の現代版では
-
付加記号が使われています
-
しかしながら
こうした付加記号は
-
現代の散文や新聞記事や
道路標識などでは
-
全く使われていません
-
ですから 平均的な
日常のカジュアルな使用では母音を加え
-
付加記号を使いません
-
より面倒なことになり
-
いろいろな規則があるものの
誰も理解していないからです
-
ですから 2つの異形があって
-
日常のカジュアルな散文で
使われるものと
-
常に伝統的な
記号が付加された文章で現れる
-
聖書や詩で使われるものです
-
語彙素が役立つには
-
ありとあらゆる言葉と
ありとあらゆる言葉の語形の
-
両方の異形を
認識する必要があります
-
これは公式の不変の異形に対する
-
とても包括的なユースケースです
-
方言ではなく
地域でもなく
-
2つの共存している
形態体系なのです
-
現在の語彙素でこれを表す方法を
私もよく分かっていません
-
マグナスの質問に一部
回答することになりますがー
-
公開されている最大のヘブライ語辞書から
準備できている部分を
-
私がアップロードできていない
理由の1つです
-
その辞書は私が7年間デジタル化しており
-
かなりの量が準備できていますが
-
現在語彙素に移していません
-
この問題の解決法が
よく分からないからです
-
では その問題を
ここで解決しましょう(笑)
-
可能なはずです
-
では 他に質問は?
-
なければ以上です
ありがとうございました
-
(拍手)