WEBVTT 00:00:00.491 --> 00:00:02.365 [ウィキデータと言語] 00:00:02.365 --> 00:00:05.946 [リディア・ピンチャー] [ウィキデータと言語] 00:00:05.946 --> 00:00:07.294 ありがとうございます 00:00:07.362 --> 00:00:11.244 この会議で大きなテーマの1つは 言語です 00:00:14.220 --> 00:00:15.993 これからお伝えするのは 00:00:15.993 --> 00:00:18.499 言語に関する現状と 00:00:18.499 --> 00:00:21.977 将来の展望についての概要です 00:00:29.036 --> 00:00:30.222 ウィキデータの使命は 00:00:30.222 --> 00:00:33.519 もっと多くの人が豊富な知識を 利用できるようにすることです 00:00:33.519 --> 00:00:37.298 言語はそれを実現するのに 極めて重要です 00:00:38.205 --> 00:00:43.291 特に 私たちの生活はますます テクノロジーに依存しているため 00:00:44.114 --> 00:00:48.873 今日の基調講演で 講演者が話していたように 00:00:49.723 --> 00:00:51.588 ある言語を話せないことにより 00:00:51.588 --> 00:00:55.020 テクノロジーが 人を置き去りにする場合があります 00:00:55.320 --> 00:00:57.255 それは良いとは言えません 00:00:58.633 --> 00:01:02.097 何とかしたいと思っています 00:01:02.927 --> 00:01:05.841 改善のためには 少なくとも 次の2つが必要です 00:01:06.411 --> 00:01:11.124 1つは 皆さんのの言語で コンテンツを提供することです 00:01:11.270 --> 00:01:13.985 2つ目は アプリケーションなど 何においても 00:01:13.985 --> 00:01:19.189 皆さんの言語で やりとりすることです 00:01:20.367 --> 00:01:24.888 ウィキデータは この2つの点に役立ちます 00:01:25.277 --> 00:01:28.408 まず 皆さんの言語での コンテンツですが 00:01:28.408 --> 00:01:31.239 これは基本的に 項目とプロパティにある内容で 00:01:31.319 --> 00:01:33.082 私たちが世界を表す方法です 00:01:33.082 --> 00:01:35.085 必要なものは これだけではないですが 00:01:35.085 --> 00:01:39.294 これにより 改善が進むはずです 00:01:39.764 --> 00:01:41.847 もう1つは 皆さんの言語によるやりとりです 00:01:41.847 --> 00:01:46.389 ここが語彙素の出番です 00:01:46.389 --> 00:01:49.382 携帯端末の 音声アシスト機能を利用する場合や 00:01:49.382 --> 00:01:54.918 デバイスに文章を翻訳させたい場合 などに活躍します 00:01:56.404 --> 00:01:59.254 では 皆さんの言語でのコンテンツを 見ていきましょう 00:01:59.254 --> 00:02:03.396 これは items(項目)properties(プロパティ)の内容です 00:02:05.406 --> 00:02:09.696 コンテンツには 項目とプロパティにあるラベルが重要です 00:02:10.236 --> 00:02:14.866 話題のエンティティが 何と呼ばれるか知る必要があります 00:02:15.656 --> 00:02:19.987 「Q5」が話題である場合 00:02:19.987 --> 00:02:22.180 それは英語話者にとっては 「human」であり 00:02:22.180 --> 00:02:24.706 ドイツ語話者とっては 「mensch」である 00:02:24.706 --> 00:02:26.374 というようなものです 00:02:26.374 --> 00:02:29.742 項目とプロパティに付いた こうしたラベルは 00:02:29.742 --> 00:02:33.619 人間と機械 そして人間と人間の 00:02:33.619 --> 00:02:35.439 ギャップを埋めてくれます 00:02:35.439 --> 00:02:40.115 それにより 既存の知識が 皆にとって さらに利用しやすくなっています 00:02:43.270 --> 00:02:46.290 これには期待が持てますね [範囲の状況は?] 00:02:46.290 --> 00:02:48.342 実際の状況はどうでしょうか 00:02:48.342 --> 00:02:49.607 このようになっています 00:02:50.947 --> 00:02:52.416 ここで分かることは 00:02:52.416 --> 00:02:56.338 ウィキデータにある 項目の大半には 00:02:56.338 --> 00:03:00.767 2つの言語で ラベルがあるということです 00:03:01.697 --> 00:03:03.851 それに次いで 1つ、3つの言語 00:03:03.851 --> 00:03:06.115 その後は悲しい状態です 00:03:06.781 --> 00:03:08.581 (静かな笑い) 00:03:10.047 --> 00:03:12.713 これを改善しましょう 00:03:14.185 --> 00:03:15.319 でも一方では 00:03:15.319 --> 00:03:17.478 もっと悪い状況を想像していました 00:03:17.478 --> 00:03:19.560 平均は1言語だと思っていましたから 00:03:19.560 --> 00:03:22.503 2言語だと分かって満足です(笑) 00:03:24.921 --> 00:03:26.186 では次 00:03:27.156 --> 00:03:33.700 興味深いのは 項目とプロパティにある ラベルの数だけでなく 00:03:33.742 --> 00:03:36.565 どの言語か知ることも 興味深いものです 00:03:38.045 --> 00:03:41.363 ここに示されているグラフは 00:03:42.748 --> 00:03:46.767 Items(項目)にラベルがある言語です 00:03:46.838 --> 00:03:50.669 大きく占めているのは Otherです 00:03:51.229 --> 00:03:53.863 グラフが読めるよう 00:03:54.533 --> 00:03:58.902 上位100の言語を抽出したので その他がOtherになっています 00:03:59.542 --> 00:04:02.142 英語、オランダ語 00:04:03.002 --> 00:04:04.254 フランス語 00:04:05.924 --> 00:04:08.924 そして特に アストゥリアス語 00:04:09.659 --> 00:04:11.749 - (聴衆1)やった! - 嬉しいですね! 00:04:13.899 --> 00:04:16.954 不均衡になっていることが ここで分かりです 00:04:16.954 --> 00:04:20.114 英語が多くの比率を占めています 00:04:21.236 --> 00:04:24.367 同様にProperties(プロパティ)の グラフを見ると 00:04:24.367 --> 00:04:25.999 こちらのほうが 均衡が取れています 00:04:27.399 --> 00:04:32.750 これはプロパティがはるかに 少ないことにもよるのでしょう 00:04:32.750 --> 00:04:36.770 ですから比較的小さなコミュニティーでも 引けをとりません 00:04:36.770 --> 00:04:39.042 皆さんの言語に ローカライズすることは 00:04:39.042 --> 00:04:41.159 ウィキデータの 重要な部分でもありますから 00:04:41.159 --> 00:04:42.384 これは良いことです 00:04:45.752 --> 00:04:48.860 ここで強調したいことは アストゥリアス語で 00:04:49.564 --> 00:04:51.740 小さなコミュニティーでも 00:04:51.740 --> 00:04:57.085 熱意と仕事で 大きな変化をもたらせるということです 00:04:57.085 --> 00:04:58.420 素晴らしいことです 00:05:01.846 --> 00:05:03.184 皆さんに質問です 00:05:03.530 --> 00:05:07.240 ウィキデータで外部識別子を除く すべてのプロパティのうち 00:05:07.687 --> 00:05:10.458 どれに多くのラベルが つまり多くの言語があるでしょうか 00:05:10.977 --> 00:05:13.847 (聴衆)[聞き取り不能] 00:05:13.847 --> 00:05:16.786 instance of という声があがりましたね 00:05:17.506 --> 00:05:19.443 違います 00:05:19.983 --> 00:05:22.210 正解はimageです(笑) 00:05:23.230 --> 00:05:28.516 あなたが instance ofに まだラベルがない言語を話すなら 00:05:28.621 --> 00:05:30.190 追加してください 00:05:31.972 --> 00:05:35.676 現在 ラベルの数は148です 00:05:37.653 --> 00:05:40.953 別のスライドです 00:05:42.631 --> 00:05:44.042 このグラフは 00:05:44.042 --> 00:05:49.321 どれだけのコンテンツが ある言語で利用できるようになっているか 00:05:49.321 --> 00:05:52.042 またどれだけそのコンテンツが 利用されたかを示しています 00:05:52.042 --> 00:05:55.448 これは曲線ですよね 00:05:55.448 --> 00:06:00.987 大半のコンテンツに 英語のラベルがあり 英語で利用でき 00:06:01.507 --> 00:06:03.735 たくさん利用されています 00:06:04.295 --> 00:06:06.449 そして値は下がっていきます 00:06:06.449 --> 00:06:09.436 ですが 外れ値もあり 00:06:09.436 --> 00:06:15.333 必然的に予想されるよりも たくさんのコンテンツがあります 00:06:16.903 --> 00:06:19.539 これはとても良いことです 00:06:20.839 --> 00:06:24.945 課題はそれほど利用されていないことです 00:06:25.565 --> 00:06:28.522 アストゥリアス語やオランダ語は もっと利用度が高いはずです 00:06:28.742 --> 00:06:32.451 コミュニティーに協力することにより 00:06:33.266 --> 00:06:37.606 収集データの利用度が向上するのは 良いことだと思います 00:06:42.910 --> 00:06:47.067 こちらと先ほどの分析は 良い結果を示しています 00:06:47.137 --> 00:06:51.378 ですが 利用度が高い項目に 00:06:51.378 --> 00:06:55.295 より多くのラベルがある 傾向があります 00:06:55.295 --> 00:06:57.964 または多くのラベルがあると 利用度が高いのでしょうか 00:07:02.513 --> 00:07:04.376 そこで疑問は 00:07:04.806 --> 00:07:07.009 私たちは強力な言語のみを サポートしているのか 00:07:07.899 --> 00:07:11.237 または あらゆる言語を サポートしているのかです 00:07:12.757 --> 00:07:17.429 こちらは言語の分類です 00:07:17.743 --> 00:07:21.832 同じ分類の言語には 同じラベルがある傾向があります 00:07:26.042 --> 00:07:28.338 クラスタする傾向が見られます 00:07:28.599 --> 00:07:32.238 こちらは同様のクラスタ分析ですが 00:07:33.018 --> 00:07:39.231 言語の健在度、利用度、 危険度に基づいて 00:07:40.256 --> 00:07:42.778 色分けされています 00:07:43.156 --> 00:07:44.642 良い結果として 00:07:44.642 --> 00:07:49.566 安全言語と危機言語とで 00:07:49.566 --> 00:07:53.773 異なるクラスタを 形成していないことです 00:07:53.773 --> 00:07:58.872 すべて混じり合っています 00:08:00.262 --> 00:08:04.625 この逆の結果よりも ずっと良いことですよね 00:08:04.625 --> 00:08:09.377 安全言語 強力な言語の間だけで 00:08:10.197 --> 00:08:13.939 助け合っている ということではありませんから 00:08:14.356 --> 00:08:17.417 これはとても良いことです 00:08:17.417 --> 00:08:19.871 これを見た時 良いことだと思いました 00:08:23.474 --> 00:08:27.769 これも同様の分析データで 00:08:30.230 --> 00:08:35.787 言語状況と 言語が所有するラベル数です 00:08:39.257 --> 00:08:42.937 安全言語(分類1)は 明らかに勝っており 00:08:42.937 --> 00:08:44.248 予想どおりです 00:08:45.508 --> 00:08:47.233 ですが 00:08:49.063 --> 00:08:54.127 分類2(不安定)、3(危機) 4(極めて危険)に分類される言語でさえ 00:08:54.407 --> 00:08:59.280 ウィキデータとその他における 表出に関して 00:08:59.280 --> 00:09:02.367 それほど悪くはありません 00:09:03.287 --> 00:09:05.777 それが分かって良かった点です 00:09:07.646 --> 00:09:09.136 同様に 00:09:09.136 --> 00:09:11.111 例えばウィキペディアでの 00:09:11.111 --> 00:09:15.275 こうしたラベルのコンテンツの 利用度を見ると 00:09:17.455 --> 00:09:22.563 ここでも同様の結果が分かります 00:09:23.603 --> 00:09:26.676 つまり こうしたコミュニティーは 00:09:26.676 --> 00:09:30.753 例えば 利用度の高い項目に ラベルを入力することにより 00:09:30.753 --> 00:09:34.504 その時間を 有益に活用しているのです 00:09:36.410 --> 00:09:37.763 外れ値については 00:09:37.763 --> 00:09:44.510 コミュニティーが その仕事が最も役立つ場を見つけられるよう 00:09:44.510 --> 00:09:48.202 私たちが協力できるところだと思います 00:09:49.312 --> 00:09:52.663 総合的には この分析結果に満足しています 00:09:54.823 --> 00:09:59.844 ウィキデータの項目とプロパティを ご説明しました 00:10:00.714 --> 00:10:03.033 次に皆さんの言語でのやりとりを 見ていきましょう 00:10:03.033 --> 00:10:05.203 ウィキデータの語彙素です 00:10:05.203 --> 00:10:09.394 ここで語彙、語形、語義を表します 00:10:10.167 --> 00:10:13.008 去年の5月からこれを行っていて 00:10:16.461 --> 00:10:18.782 コンテンツは増加してきています 00:10:20.114 --> 00:10:22.279 こちらの青が語彙素で 00:10:22.279 --> 00:10:25.938 赤が語彙素における語形 00:10:25.938 --> 00:10:29.910 黄色が語彙素における 語義を示しています 00:10:30.991 --> 00:10:34.451 後でも取り上げますが コミュニティーの一部は 00:10:34.451 --> 00:10:39.793 語彙素の語形や語義の作成に たくさんの時間を費やしています 00:10:39.793 --> 00:10:42.753 これは有益です 00:10:42.753 --> 00:10:47.765 皆さんが必要なデータセットの中核が 構築されるからです 00:10:50.562 --> 00:10:57.466 次に ウィキデータに語彙素がある すべての言語を見てみました 00:10:57.906 --> 00:11:01.003 つまりウィキデータにある 言語の数です 00:11:01.713 --> 00:11:04.404 現在 言語の数は310です 00:11:04.884 --> 00:11:08.290 では ウィキデータの 現在の語彙素数に関しては 00:11:08.290 --> 00:11:11.949 何語が第1位だと思いますか 00:11:12.933 --> 00:11:15.042 (聴衆)ロシア語 [聞き取り不能] 00:11:19.183 --> 00:11:20.216 何ですって? 00:11:20.216 --> 00:11:21.741 (聴衆2)ドイツ語 00:11:21.741 --> 00:11:23.642 先ほど聞こえてきたように 00:11:24.252 --> 00:11:25.315 ロシア語です 00:11:28.011 --> 00:11:29.754 ロシア語が抜きん出ています 00:11:31.897 --> 00:11:33.710 相対感が分かるように ご説明しますと 00:11:35.652 --> 00:11:37.856 異なる意見はありますが 00:11:38.026 --> 00:11:44.672 例えば 別の言語で 千から3千語で会話レベル 00:11:44.672 --> 00:11:49.461 4千から1万語で 上級レベルに達するそうです 00:11:51.591 --> 00:11:55.282 ですからまだ そこまでのレベルには達していません 00:11:58.483 --> 00:12:02.779 1つ注目していただきたいのは ここのバスク語で 00:12:03.279 --> 00:12:07.744 約1万の語彙素があります 00:12:09.244 --> 00:12:13.003 次に こうした語彙素に対する 語形の数を見てみると 00:12:14.163 --> 00:12:16.497 バスク語が かなり上位にあります 00:12:18.257 --> 00:12:20.006 これはすごいですよね 00:12:20.006 --> 00:12:24.930 この理由を説明する講演にも ぜひご参加ください 00:12:27.121 --> 00:12:30.779 次に 言葉の意味に当たる 語義の数を見てみると 00:12:32.015 --> 00:12:34.624 バスク語がなんとリストの第1位です 00:12:34.961 --> 00:12:36.781 これは拍手に値すると思います 00:12:37.102 --> 00:12:38.921 (拍手) 00:12:45.678 --> 00:12:46.899 皆さんに別の質問です 00:12:47.118 --> 00:12:50.181 現在 最も翻訳されている 語彙素は何でしょうか 00:12:50.651 --> 00:12:55.414 (聴衆)ネコ ダグラス・アダムス[聞き取り不能] 00:12:56.766 --> 00:13:00.014 すべて良い推測ですが 違います 00:13:01.012 --> 00:13:04.137 これです ロシア語の「水」です 00:13:09.571 --> 00:13:16.253 ウィキデータにある語彙素や語形や語義の 数についてはお話しましたが 00:13:16.412 --> 00:13:21.501 それは必要なことの1つで 他に必要なのは 00:13:21.515 --> 00:13:24.985 こうした語彙素や語形や意味を 00:13:24.985 --> 00:13:27.090 機械に読める方法で 表現することです 00:13:27.647 --> 00:13:30.039 それには 文が必要で 項目はその一例です 00:13:31.479 --> 00:13:36.362 使用するプロパティの1つは 文例です 00:13:36.362 --> 00:13:38.582 これで データを使用している誰もが 00:13:38.582 --> 00:13:42.037 文脈に応じて その言葉の使い方を理解できます 00:13:42.037 --> 00:13:44.158 例えば 引用などが考えらます 00:13:45.396 --> 00:13:47.113 ここではポーランド語が第1位です 00:13:47.900 --> 00:13:49.814 ポーランド語話者の方々 頑張りましたね 00:13:54.219 --> 00:13:57.680 もう1つ役立つプロパティは IPA(発音記号)です 00:13:57.680 --> 00:13:59.967 語彙の発音の仕方です 00:14:00.876 --> 00:14:07.497 ロシア語は IPA文を たくさん必要としていますね 00:14:10.419 --> 00:14:13.314 ですがここでも ポーランド語が第2位です 00:14:17.148 --> 00:14:20.753 ウィキデータには 音声データもあります 00:14:20.758 --> 00:14:25.583 発せられた言葉を収めた ファイルへのリンクがコモンズにあるので 00:14:25.959 --> 00:14:28.630 発音記号を読めない場合などに 00:14:28.630 --> 00:14:32.871 ネイティブ スピーカーの 発音を聞くことができます 00:14:34.959 --> 00:14:36.765 またウィキベースを動力とする 00:14:36.765 --> 00:14:40.474 Lingua Libreという プロジェクトがあります 00:14:40.884 --> 00:14:45.173 ご自分の言語での 言葉の録音に協力して 00:14:45.173 --> 00:14:47.836 ウィキデータの語彙素へ追加すると 00:14:48.446 --> 00:14:52.103 他の人がその言葉の 発音の仕方を理解できます 00:14:53.663 --> 00:14:55.694 (聴衆2)[聞き取り不能] 00:14:55.694 --> 00:14:57.703 「Lingua Libre」と検索すると 00:14:57.703 --> 00:15:00.981 テレグラムに 誰かがそれを投稿してくれるはずです 00:15:03.138 --> 00:15:04.621 彼らは素晴らしく 00:15:04.621 --> 00:15:06.726 ウィキベースで 優れた仕事をしています 00:15:12.706 --> 00:15:17.285 次に知りたいのは 将来の展望です 00:15:19.165 --> 00:15:22.010 お見せしたデータに基づくと 00:15:23.030 --> 00:15:25.172 ウィキデータの言語を見ると 00:15:25.172 --> 00:15:28.430 もっと多くの人に 豊富な知識への アクセスを提供しようと 00:15:28.430 --> 00:15:31.240 長い道のりをここまで来ました 00:15:32.530 --> 00:15:36.392 ですが この先にも たくさんの仕事が控えています 00:15:38.992 --> 00:15:42.341 例えば 皆さんが協力できることとして 00:15:42.341 --> 00:15:46.255 マラソンのように 皆で集まって一斉に 00:15:46.255 --> 00:15:50.124 ウィキデータで 項目にラベル付けをするとか 00:15:50.914 --> 00:15:55.121 皆さんの言語の 語彙素を編集して 00:15:55.121 --> 00:15:59.212 最も利用されている言葉を皆さんの言語で ウィキデータに収めるようなことです 00:16:00.773 --> 00:16:03.285 またはTerminatorのような ツールを使用して 00:16:03.285 --> 00:16:08.120 皆さんの言語で まだラベルが付いていない 00:16:08.120 --> 00:16:11.529 最重要項目を 見つけてもいいでしょう 00:16:13.274 --> 00:16:16.666 重要度を測るには 00:16:16.666 --> 00:16:20.940 文中のリンクのような 他のウィキデータの項目における 00:16:20.940 --> 00:16:22.349 利用頻度によります 00:16:25.768 --> 00:16:30.022 もちろん 語彙素に関しては 00:16:31.342 --> 00:16:35.169 現在 基本的な語彙素は カバーしていますので 00:16:35.169 --> 00:16:41.132 今後 大事なのは 開発とさらなる文の追加です 00:16:41.132 --> 00:16:44.467 しっかりとした基礎を築いて 00:16:44.467 --> 00:16:47.421 その上に有意義な アプリケーションを開発することです 00:16:48.141 --> 00:16:50.768 その臨界点には近付いてはいても 00:16:50.768 --> 00:16:56.410 基礎の上に本格的なアプリケーションを 開発できる所までは到達していないからです 00:16:58.277 --> 00:17:01.520 皆さんにその仕事に ご参加いただければと思います 00:17:02.583 --> 00:17:09.405 ここでちょっと 友人から協力してもらいましょう 00:17:09.843 --> 00:17:12.493 ブリューノ こちらへご登壇を 00:17:13.882 --> 00:17:16.744 Lexicon Mask (辞書マスク)のお話をどうぞ 00:17:16.881 --> 00:17:19.036 (ブリューノ)ありがとう リディア 00:17:19.036 --> 00:17:22.519 Googleでの仕事をお伝えする 時間をいただきまして 00:17:22.519 --> 00:17:24.150 ありがとうございます 00:17:24.150 --> 00:17:29.275 デニーのことは ご存知の方も多いでしょう 00:17:30.126 --> 00:17:32.030 Googleで 私は言語学者ですから 00:17:32.030 --> 00:17:36.150 言語に熱意のある方々に囲まれ うれしく思います 00:17:36.620 --> 00:17:39.278 私たちは 辞書を開発しています 00:17:39.278 --> 00:17:45.346 また皆さんに役立つテクノロジーや アプローチを開発しています 00:17:46.369 --> 00:17:48.455 背景を少々お伝えしますと 00:17:48.455 --> 00:17:51.907 これがここでお話している 辞書編集の背景です 00:17:52.788 --> 00:17:54.977 辞書データベースを開発した際に 00:17:54.977 --> 00:17:56.662 恐らくご存知のように 00:17:56.662 --> 00:18:01.775 データの維持や一貫性の保持や交換に 悪銭苦闘しました 00:18:02.074 --> 00:18:05.959 語彙素や語形を表している 00:18:05.959 --> 00:18:09.184 特性やプロパティをまとめようと 何度も試み 00:18:09.184 --> 00:18:10.936 完全には解決していませんが 00:18:10.936 --> 00:18:13.592 その面でいくらか統一されています 00:18:13.742 --> 00:18:15.269 ですが不足していたのは― 00:18:15.269 --> 00:18:18.732 これはGoogleでのプロジェクト 開始時から抱えていた課題ですが 00:18:18.732 --> 00:18:21.517 内部構造を持つ努力でした 00:18:22.197 --> 00:18:25.910 しかるべき語彙記載項や 00:18:25.910 --> 00:18:28.581 データの種類や 所有情報の種類や 00:18:28.581 --> 00:18:32.237 予期される規定などを 表す内部構造です 00:18:32.237 --> 00:18:38.187 そこで Lexicon Mask というものを考案しました 00:18:38.897 --> 00:18:44.841 Lexicon Maskが表すのは エントリに予期される内容で 00:18:44.841 --> 00:18:47.329 完了予定の 辞書編集エントリです 00:18:47.329 --> 00:18:51.436 これには 語彙に予期される語形の数と 00:18:51.436 --> 00:18:55.607 各語形に予期される特性の数の 双方が含まれます 00:18:56.397 --> 00:18:58.329 これはイタリア語の形容詞の例です 00:18:58.329 --> 00:19:02.002 イタリア語では 形容詞に対して 4つの語形が予期されます 00:19:02.002 --> 00:19:04.493 性や数の特性に関して 00:19:04.493 --> 00:19:07.946 各語形に特別な組み合わせがあります 00:19:08.606 --> 00:19:12.672 これがイタリア語の形容詞に 予期されることです 00:19:12.672 --> 00:19:16.176 もちろん 極めて複雑な マスクになる可能性もあります 00:19:16.176 --> 00:19:20.783 例えば フランス語の動詞活用は かなり広範囲です 00:19:20.783 --> 00:19:23.487 ロシアのマスクは 画面に収まらないので 00:19:23.487 --> 00:19:25.378 今は表示されていません 00:19:26.308 --> 00:19:29.531 詳細規定もあります 00:19:29.531 --> 00:19:33.421 語形レベルで識別するからです 00:19:33.421 --> 00:19:35.036 これはロシア語の名詞で 00:19:35.036 --> 00:19:40.048 異なる語形での 事例数が3つありますが 00:19:40.048 --> 00:19:43.086 エントリレベルの規定もあって 00:19:43.086 --> 00:19:45.590 特に名詞に 00:19:45.590 --> 00:19:50.133 固有の性と 固有の有生性の特性があり 00:19:50.133 --> 00:19:52.488 これもマスクの中で規定されています 00:19:54.518 --> 00:20:00.099 また マスクが一般的に しかるべきエントリに与える規定を 00:20:00.099 --> 00:20:01.874 識別することが必要ですが 00:20:01.874 --> 00:20:07.158 言語に発生する 語形や語彙の欠如のため 00:20:07.158 --> 00:20:11.282 より小さなマスクになる 可能性もあります 00:20:11.282 --> 00:20:14.537 これがフランス語の動詞の 最もシンプルなバージョンで 00:20:14.537 --> 00:20:18.535 例えば「雨が降る」 「雪が降る」のような 00:20:18.535 --> 00:20:23.969 天候に関する動詞すべてに 三人称単数があるだけです 00:20:24.537 --> 00:20:26.743 ですからこれら2つのレベルを識別します 00:20:26.923 --> 00:20:29.962 Googleでこれを使用する方法は 00:20:29.962 --> 00:20:32.643 使いたい辞書がある場合 00:20:33.063 --> 00:20:38.309 文字通りマスクを 辞書に投げて 00:20:38.309 --> 00:20:40.163 すべてのエントリを マスクを通して 00:20:40.163 --> 00:20:44.303 どのエントリに 構造的問題があるか 00:20:44.303 --> 00:20:46.523 語形や特性が 不足しているのかを見ます 00:20:46.523 --> 00:20:51.497 問題があれば 人が検証を行うか 00:20:51.497 --> 00:20:53.751 マスクを通過するかを見ます 00:20:53.751 --> 00:20:57.924 ですから 構造の品質管理には 非常に有益なツールです 00:20:59.427 --> 00:21:01.964 今日発表いたしますのは 00:21:01.964 --> 00:21:05.408 私たちのマスクの オープンソース化です 00:21:05.948 --> 00:21:07.573 これがスキーマです 00:21:07.573 --> 00:21:09.477 ご希望があれば 公開して 00:21:09.477 --> 00:21:13.483 ShExファイルとして ウィキデータに提供します 00:21:13.483 --> 00:21:16.688 これがドイツ語名詞に対する ShExファイルです 00:21:16.688 --> 00:21:21.058 内部仕様からオープンソース仕様への コンバージョンに 00:21:21.058 --> 00:21:23.350 デニーが取り組んでいます 00:21:23.666 --> 00:21:27.265 現在 25言語超をカバーしています 00:21:27.265 --> 00:21:30.199 ウィキデータの発展を 期待しているだけでなく 00:21:30.199 --> 00:21:34.350 他の言語に対する 協働の機会を求めてもいます 00:21:34.350 --> 00:21:40.728 ダニーがルーカスと進行中の コラボレーションの1つは 00:21:40.728 --> 00:21:45.052 ルーカスが持つ優れたツールで 00:21:45.052 --> 00:21:51.061 UIのヘルプで ユーザーや貢献者に 語形を追加してもらうものです 00:21:51.061 --> 00:21:54.151 フランス語で 形容詞を追加したい場合 00:21:54.151 --> 00:21:59.057 UIが予期される語形の数と 00:21:59.057 --> 00:22:01.562 語形がどんな特性を持つはずかを 教えてくれます 00:22:01.562 --> 00:22:06.268 ですから私たちのマスクが 定義と拡張に役立ちます 00:22:07.238 --> 00:22:08.385 以上です 00:22:08.731 --> 00:22:10.298 (リディア)ありがとう 00:22:10.358 --> 00:22:11.993 (拍手) 00:22:14.249 --> 00:22:16.761 ご質問はありますか? 00:22:16.891 --> 00:22:19.381 語彙素について 詳しく知りたいですか 00:22:19.817 --> 00:22:22.505 - (聴衆3)知りたいです - 分かりました(笑) 00:22:33.485 --> 00:22:34.750 (聴衆3)私の質問は 00:22:34.750 --> 00:22:39.106 もっと多くの言語で もっと多くの人に 利用できるようにすると仰いましたが 00:22:39.106 --> 00:22:42.444 ウィキデータで使用できない言語は たくさんあります 00:22:42.444 --> 00:22:44.246 ウィキデータとしての解決策は? 00:22:45.889 --> 00:22:47.686 ウィキデータで 使用できないというのは 00:22:47.686 --> 00:22:50.308 ラベルの記載のお話ですか? 00:22:50.308 --> 00:22:52.578 - (聴衆3)ラベルや説明です - ええ 00:22:52.578 --> 00:22:55.498 語彙素に対しては 少し異なります 00:22:55.498 --> 00:22:57.793 語彙素には その制限がないからです 00:22:58.923 --> 00:23:05.003 項目やプロパティのラベルには いくらか制限があります 00:23:05.433 --> 00:23:08.496 ウィキデータでは 00:23:08.496 --> 00:23:14.229 誰もがすべてを行えるようには していないからです 00:23:14.229 --> 00:23:17.769 そうすると 管理が難しくなってしまいます 00:23:19.349 --> 00:23:23.328 1つの言語に取り組みたい 小さなコミュニティーであっても 00:23:23.898 --> 00:23:26.693 ご要望いただければ 実現させます 00:23:26.693 --> 00:23:29.292 (聴衆3)5月にプラハの ハッカソンで要望しましたが 00:23:29.292 --> 00:23:32.459 私たちの言語を使えるようになるには 8月にまでかかりました 00:23:32.459 --> 00:23:35.135 - ええ - (聴衆3)遅いのです 00:23:35.135 --> 00:23:37.274 あいにく時間がかかります 00:23:37.854 --> 00:23:39.883 現在 言語委員会と 00:23:39.883 --> 00:23:46.048 基本部分の解決に取り組んでいます 00:23:49.537 --> 00:23:55.447 どの言語が実際「許可」されるか について同意を得るのは 00:23:56.047 --> 00:23:59.398 非常に時間がかかっています 00:23:59.988 --> 00:24:04.178 これがご要望に対して 必要以上に時間がかかった理由です 00:24:04.778 --> 00:24:05.963 (聴衆3)ありがとう 00:24:06.815 --> 00:24:07.950 (聴衆4)ありがとう 00:24:07.950 --> 00:24:10.938 リディア 見せていただいた統計に 00:24:10.938 --> 00:24:12.886 言語ごとの語彙素の数がありましたが 00:24:12.886 --> 00:24:17.599 データポイントとして すべての語形を合計したんでしょうか 00:24:17.599 --> 00:24:20.034 それとも語彙素だけですか 00:24:21.289 --> 00:24:22.941 (リディア)これですか 00:24:22.941 --> 00:24:24.053 どれですか 00:24:24.053 --> 00:24:25.529 (聴衆4)それです 00:24:25.797 --> 00:24:28.341 この数は[聞き取り不能] 00:24:28.341 --> 00:24:31.954 すべての語彙素に対するすべての語形ですか 存在する語彙素の数ですか 00:24:31.954 --> 00:24:35.395 - これは単に語彙素数の数です - (聴衆4)そうですか 00:24:35.395 --> 00:24:36.797 では単なる統計値ですね 00:24:36.797 --> 00:24:39.390 もし語形から成るものだったら... 00:24:39.390 --> 00:24:40.614 それが質問の理由です 00:24:40.614 --> 00:24:42.817 屈折形態を伴うすべての言語― 00:24:42.817 --> 00:24:45.117 例えばロシア語やセルビア語 スロベニア語などには 00:24:45.117 --> 00:24:47.616 語形が数多くあることになるので 元から有利です 00:24:47.616 --> 00:24:51.990 それがここの語形数に 影響しています 00:24:51.990 --> 00:24:53.851 (聴衆4)分かりました ありがとう 00:24:56.546 --> 00:25:00.224 (聴衆5)簡単な質問ですが 00:25:00.644 --> 00:25:06.824 実際の項目とプロパティに関し 00:25:07.124 --> 00:25:08.901 私が理解している限りでは 00:25:08.901 --> 00:25:11.948 与えられた どのラベルや説明にも 00:25:11.955 --> 00:25:15.794 現在 実際のソースを 提供する方法はないんですよね 00:25:15.807 --> 00:25:20.920 例えば 項目のプロパティの場合 00:25:20.920 --> 00:25:24.509 相反するラベルが得られるかもしれない 00:25:24.509 --> 00:25:25.739 そうです 00:25:28.402 --> 00:25:30.781 先ほど 固有性というお話がありましたが 00:25:30.781 --> 00:25:35.965 例えば 芸術家が あるソースによれば ノルウェー人であり 00:25:35.965 --> 00:25:38.750 別のソースによれば サーミ人であるとか 00:25:39.550 --> 00:25:41.741 エストニア人であったりします 00:25:42.593 --> 00:25:49.259 公式の辞書の中でその言葉を 公式の用語に変える必要がありましたが 00:25:49.482 --> 00:25:52.262 理由を示す方法がありません 00:25:52.262 --> 00:25:53.596 このソースは何だったかとか 00:25:53.596 --> 00:25:55.561 変更理由とか 以前の内容などを示せません 00:25:55.561 --> 00:25:59.615 誰かが理由もなく 変更したように見えてしまいます 00:25:59.615 --> 00:26:03.350 言語データに対して 適切なソースを持てるように 00:26:03.350 --> 00:26:06.355 これを変更する計画はありますか? 00:26:07.045 --> 00:26:11.468 それは部分的に可能です 00:26:11.568 --> 00:26:15.958 例えば 人物に対する項目があって 00:26:16.968 --> 00:26:22.720 その人物に関する 文や氏名などが続きます 00:26:22.720 --> 00:26:26.226 そこで出典を付けることができます 00:26:28.211 --> 00:26:32.264 ラベルや説明の出典を 00:26:32.264 --> 00:26:35.557 今より複雑にするのは避けたいですが 00:26:35.557 --> 00:26:41.252 これは 文上のどの出典によっても 取り上げられていないと 00:26:41.252 --> 00:26:44.939 人々が強く希望するのであれば 00:26:44.939 --> 00:26:46.803 議論の余地はあります 00:26:49.079 --> 00:26:53.303 ですが 数少ないであろう事例のために 00:26:53.303 --> 00:26:56.523 複雑になってしまうのが心配です 00:26:57.393 --> 00:27:00.188 皆さんが強く望まれるものなら 00:27:00.188 --> 00:27:04.087 喜んでそうしたいのですが 00:27:04.087 --> 00:27:08.177 (聴衆5)追加されるのであれば デフォルトではなく 00:27:08.177 --> 00:27:12.452 初心者などには表示されない インターフェースにして 00:27:12.452 --> 00:27:16.190 「詳細を追加するなら ここをクリック」 などとするといいでしょう 00:27:17.632 --> 00:27:23.368 実際 問題になりうる頻度はどうでしょう 00:27:24.520 --> 00:27:26.423 (聴衆5)エストニア語では 例えば― 00:27:26.423 --> 00:27:28.844 これは他の言語にも 当てはまると思いますが 00:27:29.274 --> 00:27:35.510 例えば 正規に英語に翻訳されている 00:27:36.206 --> 00:27:40.314 特定の行政区の公式名があって 00:27:40.324 --> 00:27:42.182 それが私のユースケースでした 00:27:42.182 --> 00:27:44.409 かつて「parish」という 言葉を使っていて 00:27:45.159 --> 00:27:50.628 それが元のエストニア語の言葉では 教会区というような意味であり 00:27:50.628 --> 00:27:51.899 それが由来でしたが 00:27:51.899 --> 00:27:54.809 それは現在エストニア語で 公式の翻訳ではありません 00:27:55.189 --> 00:27:58.993 そのケースでは 公式名を文に追加して 00:27:58.993 --> 00:28:00.817 出典もそこに追加できます 00:28:01.992 --> 00:28:03.218 (聴衆5)分かりました 00:28:05.186 --> 00:28:06.572 他にご質問は? 00:28:07.682 --> 00:28:10.044 (聴衆6)意見が2つあります 00:28:10.044 --> 00:28:13.934 良い成績の言語として アストゥリアス語を特に挙げられましたが 00:28:13.934 --> 00:28:16.455 誤ったアーティファクトだと思います 00:28:16.455 --> 00:28:17.724 教えてください 00:28:17.724 --> 00:28:19.748 (聴衆6)それはボットが 00:28:19.748 --> 00:28:24.068 人名や固有名詞を 貼り付けたものだと思います 00:28:24.068 --> 00:28:27.172 「フランス語やスペイン語でも まったく同じ」と言うように 00:28:27.172 --> 00:28:28.558 ただ大量にコピーしたんです 00:28:28.558 --> 00:28:31.766 証拠の1つに アストゥリアス語で 00:28:31.766 --> 00:28:35.440 固有名詞以外の プロパティ名や項目名などで 00:28:35.440 --> 00:28:39.216 翻訳を必要としている取り組みは あまり見られません 00:28:39.648 --> 00:28:41.142 心が痛みます 00:28:41.142 --> 00:28:43.538 (聴衆6)分かります 水を差してしまいましたよね 00:28:43.538 --> 00:28:48.458 でも 良いこともあります 発音の数です 00:28:49.408 --> 00:28:53.515 恐らくご存知のように コモンズは発音のファイルがいっぱいで 00:28:53.515 --> 00:28:54.668 例えば 00:28:54.668 --> 00:29:01.102 オランダ語はコモンズにすでに 30万以上の発音のファイルがあり 00:29:01.912 --> 00:29:05.051 方法はどうあれ 取り込まれる必要があるだけです 00:29:05.051 --> 00:29:07.697 サイドプロジェクトを 探している方がいれば 00:29:07.697 --> 00:29:08.997 大量に 00:29:08.997 --> 00:29:13.280 分類された発音のファイルが コモンズの 00:29:13.280 --> 00:29:16.893 「Pronunciation(発音)」 項目に言語別にあり 00:29:16.893 --> 00:29:22.840 語彙素との一致と語彙素への掲載を ただ待っている状態です 00:29:23.180 --> 00:29:26.574 ロードマップについて 言えることはありますか 00:29:26.585 --> 00:29:28.757 投資額とか 00:29:28.757 --> 00:29:31.995 来たる年に 語彙素から期待できることなど 00:29:31.995 --> 00:29:34.020 私も待ちきれない一人ですから 00:29:34.949 --> 00:29:37.044 待ちきれないですか?(笑) 00:29:37.044 --> 00:29:39.198 - (聴衆6)期待してます - はい(笑) 00:29:44.541 --> 00:29:49.523 現在は ウィキベースと データの質のほうに力を入れて 00:29:51.493 --> 00:29:55.087 これがどれだけ けん引力を得られるか見ています 00:29:55.087 --> 00:30:01.676 その次に 解決が難しい 問題に取り組み 00:30:01.676 --> 00:30:06.003 その後 辞書学データの さらなる改善に戻る予定です 00:30:06.903 --> 00:30:09.790 あなたにお聞きしたいことの1つは 00:30:09.790 --> 00:30:14.136 次のステップとなる箇所と 00:30:14.136 --> 00:30:15.966 改善点を見たい箇所です 00:30:15.966 --> 00:30:20.340 そうすれば 実現の方法を考えます 00:30:21.125 --> 00:30:22.810 もちろん仰ることは正しく 00:30:22.810 --> 00:30:25.712 技術面での仕事は まだたくさんあります 00:30:30.573 --> 00:30:35.848 (聴衆7)バスク語の言葉を 語形と一緒にアップロードしていた際に 00:30:35.848 --> 00:30:37.768 こんなことがありました 00:30:37.768 --> 00:30:41.329 先週 私たち二人とも 自分たちが初だと言っていたら 00:30:42.919 --> 00:30:44.928 報道されて 00:30:44.928 --> 00:30:49.488 「バスク語で初の業績― 彼らが初の何かを」と 00:30:49.488 --> 00:30:50.606 (笑) 00:30:50.606 --> 00:30:53.318 そしてこれは何のためかと 聞かれたんです 00:30:54.678 --> 00:30:56.849 私たちには 良い答えがありませんでした 00:30:56.849 --> 00:30:57.888 これによって 00:30:57.888 --> 00:31:01.841 コンピュータが私たちの言語を 理解しやすくなるのは分かりますが 00:31:01.841 --> 00:31:05.279 将来 どんなツールを 開発できるでしょうか 00:31:05.279 --> 00:31:07.467 私には分かりませんが 00:31:07.467 --> 00:31:10.625 これに対する 良い答えをお持ちでしょうか 00:31:10.625 --> 00:31:12.742 (笑)私に良い答えがあるか 分かりませんが 00:31:12.742 --> 00:31:14.746 答えはあります 00:31:15.480 --> 00:31:20.425 現在は 先ほどお伝えしたように 00:31:20.425 --> 00:31:23.504 数々の興味深いツールを 開発できるような 00:31:23.504 --> 00:31:25.529 臨界点には達していません 00:31:25.529 --> 00:31:27.707 でもすでに ツールはいくつかあります 00:31:28.267 --> 00:31:31.912 例えば つい先日 エスター・パンデリアが 00:31:31.912 --> 00:31:33.817 ツールをリリースしました 00:31:35.837 --> 00:31:38.259 それは世界の言語が 00:31:38.259 --> 00:31:41.901 どこで話され どこから来ているか 分かるものです 00:31:42.631 --> 00:31:44.090 確かではありませんが 00:31:44.090 --> 00:31:46.726 ウィキデータのプロジェクトチャット上で 公表されました 00:31:46.726 --> 00:31:48.984 お調べいただけます 00:31:49.574 --> 00:31:53.527 ウィキペディア開始時に 見ていたように 00:31:53.527 --> 00:31:55.696 最初のツールを見ています 00:31:56.846 --> 00:31:59.602 最初は... ネットワークと同様 00:31:59.602 --> 00:32:03.424 徐々に繋がりが明らかになります 00:32:04.824 --> 00:32:07.059 データが増えるにつれ 00:32:07.059 --> 00:32:10.352 臨界に達して 00:32:11.852 --> 00:32:14.747 性能の良い アプリケーションが可能になります 00:32:15.677 --> 00:32:17.516 例えば ヒストロペディアや 00:32:19.126 --> 00:32:23.746 携帯端末での質疑応答や 00:32:23.746 --> 00:32:26.663 Platypusなどのようなものです 00:32:26.663 --> 00:32:29.668 語彙素でも 同様のものを見ています 00:32:31.198 --> 00:32:34.650 このようなものを 開発できる段階には来ていて 00:32:34.650 --> 00:32:37.464 関連性も分かっていて 00:32:37.864 --> 00:32:42.738 別の言語へ 言葉を翻訳できる段階なので 00:32:42.738 --> 00:32:47.747 開発につれ より多くの言葉を表すにつれ 00:32:47.747 --> 00:32:49.533 たくさんのことが可能になります 00:32:49.533 --> 00:32:51.795 何が可能になるかというと 00:32:53.482 --> 00:32:59.483 基調講演でベンが 翻訳についてお話したように 00:33:00.103 --> 00:33:03.455 1つの言語から別の言語へ 翻訳できます 00:33:03.486 --> 00:33:07.929 また同僚のイェンスが いつも言うことには 00:33:07.929 --> 00:33:11.452 欧州連合が 翻訳者を求めているそうで 00:33:11.452 --> 00:33:17.439 マルタ語から スウェーデン語へ翻訳できる― 00:33:17.439 --> 00:33:19.436 - (聴衆8)エストニア語です - 失礼 00:33:22.016 --> 00:33:26.211 あまりない組み合わせですね 00:33:27.211 --> 00:33:31.735 こうした言語がすべて 機械で読める1か所の場所にあれば 00:33:31.735 --> 00:33:33.143 翻訳できるのです 00:33:33.143 --> 00:33:36.857 エストニア語からマルタ語へ またはその逆でも翻訳できる 00:33:36.857 --> 00:33:41.735 辞書が手に入るのです 00:33:42.935 --> 00:33:45.607 今までは 例えばコストの面から 作業を正当化できるほど 00:33:45.607 --> 00:33:47.911 十分な需要がなかったため 00:33:47.911 --> 00:33:51.050 これまで辞書でカバーされていなかった 00:33:51.050 --> 00:33:55.540 言語の組み合わせがあったわけですが 00:33:55.540 --> 00:33:57.147 それが今は行えます 00:33:59.797 --> 00:34:02.318 それと テキスト生成です 00:34:02.318 --> 00:34:04.259 ルーシーが先ほど 00:34:04.259 --> 00:34:06.226 テキスト生成に関して 00:34:06.226 --> 00:34:10.136 少数言語で ウィキペディアの記事を開始するため 00:34:10.136 --> 00:34:14.673 ハッティとどのように 取り組んでいるかをお話しました 00:34:15.423 --> 00:34:19.512 それには 言葉に関するデータが必要で 00:34:19.512 --> 00:34:22.589 そのためには その言語について 理解する必要があります 00:34:23.769 --> 00:34:28.133 そうしたことが 今私に浮かんだアイデアです 00:34:28.693 --> 00:34:31.254 その壮大なデータが得られた場合 何をしたいか 00:34:31.254 --> 00:34:34.353 皆さんには もっとアイデアが あるかもしれませんね 00:34:37.693 --> 00:34:40.892 (聴衆9)語彙素のトピックから 外れますが 00:34:40.892 --> 00:34:42.666 質問させてください 00:34:42.666 --> 00:34:46.754 コミュニティーの一員として 仕事の優先順位に 00:34:46.754 --> 00:34:50.135 私はどう影響を与えられるでしょうか 00:34:50.144 --> 00:34:54.593 新規ユーザーが 秘密の合言葉なしに 00:34:54.593 --> 00:35:01.135 編集したい言語を 示せるようにできるのでしょうか 00:35:02.145 --> 00:35:04.264 ウィキペディアのトピックなしの 00:35:04.264 --> 00:35:07.040 技術的要望リストがいつの日か 訪れるかも知れません 00:35:07.040 --> 00:35:10.119 7年間放置されていたことが 00:35:10.119 --> 00:35:14.218 全員一致の意見で直すことに なるかも知れません 00:35:14.218 --> 00:35:17.607 これについて お考えやご意見は? 00:35:18.217 --> 00:35:20.328 仰っているのは 00:35:20.328 --> 00:35:23.518 ウィキデータに ログインしていない人が 00:35:23.518 --> 00:35:25.971 簡単に言語を変更できないという 問題ですか? 00:35:25.971 --> 00:35:28.132 (聴衆9)いいえ 新規ユーザーです 00:35:28.132 --> 00:35:30.689 新規ユーザーが ログインしていれば 00:35:30.689 --> 00:35:34.871 ページ上部で 言語を変更できますし 00:35:35.891 --> 00:35:39.769 ラベルの説明が [聞き取り不能]場所に 00:35:39.769 --> 00:35:42.013 それが表示され 00:35:42.013 --> 00:35:43.483 編集できます 00:35:45.657 --> 00:35:49.009 (聴衆9)大抵の ワークフローでは 00:35:49.009 --> 00:35:52.447 複数の言語を望めば 利用できますが 00:35:52.447 --> 00:35:55.419 いつもそうとは限りません 00:35:55.419 --> 00:35:58.584 この講演の後に 詳しく伺いましょう 00:36:01.562 --> 00:36:04.089 いいですね 他にご質問は? 00:36:05.534 --> 00:36:06.536 どうぞ 00:36:11.595 --> 00:36:13.196 (聴衆10)良いプレゼンでした 00:36:14.257 --> 00:36:18.091 ウィクショナリーのコミュニティーとの 相互関係の状態について 00:36:18.091 --> 00:36:19.307 ご意見をください 00:36:19.307 --> 00:36:20.956 私が見ている限り 00:36:20.956 --> 00:36:26.051 作業の重要な要素のインポートについて 議論がありますが 00:36:26.051 --> 00:36:30.843 ライセンスの問題や 異論などがあるようです 00:36:30.843 --> 00:36:31.848 はい 00:36:31.848 --> 00:36:34.520 ウィクショナリーのコミュニティーは 00:36:34.520 --> 00:36:39.473 ウィクショナリー開発に 長い時間をかけてきています 00:36:39.533 --> 00:36:42.774 彼らが開発してきた 00:36:42.774 --> 00:36:47.554 驚くほど難しく複雑な テンプレートは 00:36:47.554 --> 00:36:53.614 きれいな表を作成して フォームを自動生成してくれたり 00:36:53.614 --> 00:37:00.136 いろいろと素晴らしく 並外れたことをしてくれます 00:37:02.311 --> 00:37:07.994 もちろん 彼らは多くの時間と努力を 費やしてきています 00:37:09.364 --> 00:37:11.801 当然のことながら 00:37:11.801 --> 00:37:18.786 ただそんな具合に 誰かの手に渡したくはないのです 00:37:19.102 --> 00:37:21.791 ライセンスの問題は そこから生じているものもあります 00:37:22.761 --> 00:37:25.137 それでいいのです 00:37:25.737 --> 00:37:31.262 最初のウィクショナリーの コミュニティーが調整を行い 00:37:31.262 --> 00:37:34.329 ウィキデータへデータを インポートする話をしています 00:37:34.329 --> 00:37:39.095 ご覧になったロシア語は その一例で 00:37:40.375 --> 00:37:42.355 これは今後も起こると思います 00:37:43.635 --> 00:37:46.800 時間のかかるプロセスです 00:37:46.800 --> 00:37:49.753 ウィキペディアへ ウィキデータのデータを採用するのと同様 00:37:49.753 --> 00:37:51.909 時間がかかります 00:37:52.849 --> 00:37:58.625 語彙素データを 利用しやすくする一方で 00:37:58.632 --> 00:38:02.269 ウィクショナリーでも それを活用し 00:38:02.269 --> 00:38:05.531 語彙素とウィクショナリー間で データを共有できるようにするのは 00:38:05.531 --> 00:38:08.853 現状では困難です 00:38:08.853 --> 00:38:11.560 ウィキペディアであったように とんでもないことです 00:38:13.860 --> 00:38:16.325 誕生日プレゼントを お待ちください(笑) 00:38:20.038 --> 00:38:21.182 どうぞ 00:38:22.599 --> 00:38:25.950 (聴衆11)ばかげているので 言いたくなかったのですが 00:38:25.950 --> 00:38:28.168 逆の見方をしていました 00:38:28.168 --> 00:38:32.003 ウィクショナリーに すでにコンテンツがあっても 00:38:32.003 --> 00:38:34.248 ライセンスで違いがあるため 00:38:34.248 --> 00:38:37.048 ウィキデータに転送できないと 分かっていますが 00:38:37.048 --> 00:38:39.631 それに対処できるのではと 考えていました 00:38:40.321 --> 00:38:45.913 例えば コミュニティーの許可を得た後に 00:38:45.913 --> 00:38:51.205 公開投票などを行い 00:38:52.075 --> 00:38:56.601 コミュニティーに対しては アクティブなメンバーが投票し 00:38:56.601 --> 00:39:02.523 コンテンツ転送の 承認や可否について発言し 00:39:02.523 --> 00:39:05.528 それに対し ウィキデータの語彙素に 取り組めばいいと思います 00:39:06.238 --> 00:39:08.537 もったいないからです 00:39:09.568 --> 00:39:14.961 それはまさにウィクショナリーの コミュニティーにいる人たちが 00:39:14.961 --> 00:39:18.249 快く議題として取り上げるお話です 00:39:18.249 --> 00:39:24.647 私たちがそこで押し付けるのは 厚かましいですが 00:39:25.917 --> 00:39:31.142 話し合うのは 確かに価値があると思います 00:39:31.142 --> 00:39:34.972 ですが 法的に許可されることと 00:39:34.972 --> 00:39:39.082 私たちがすべきことと 00:39:39.082 --> 00:39:43.147 人々が望むこと 望まないことの間には 00:39:43.147 --> 00:39:45.426 相違があると 理解するのも重要です 00:39:45.736 --> 00:39:47.329 ですから 法的に許可されても 00:39:47.329 --> 00:39:50.640 ウィクショナリーの コミュニティーが望まなければ 00:39:50.640 --> 00:39:53.537 少なくとも 気を付けたほうがいいでしょう 00:39:58.886 --> 00:40:02.249 マイクをお持ちください 00:40:04.540 --> 00:40:07.299 (聴衆12)すべて素晴らしいお話でした 00:40:07.979 --> 00:40:12.319 すぐに思ったことは 私の生徒にどうやって伝えようかとか 00:40:12.319 --> 00:40:15.558 課程にどう組み込もうかとか 00:40:15.558 --> 00:40:18.531 私たちの仕事や 教育の場面などでした 00:40:18.531 --> 00:40:24.116 私には 現時点で まず十分な知識がありません 00:40:24.116 --> 00:40:27.278 ですが 今あるドキュメンテーションは 00:40:27.808 --> 00:40:30.082 改善の余地があると思います 00:40:30.082 --> 00:40:31.947 そこでリクエストしたいのは 00:40:31.947 --> 00:40:35.898 仕組みを説明してくれる動画です 00:40:35.898 --> 00:40:39.948 それがあれば 活用できます 00:40:39.948 --> 00:40:41.985 生徒に参加してもらったり 00:40:41.985 --> 00:40:47.072 どれだけ素晴らしいかを 人々に理解してもらえます 00:40:47.072 --> 00:40:52.001 ぜひドキュメンテーションと 教育についてお考えください 00:40:52.001 --> 00:40:54.480 多くの成果が得られるはずです 00:40:54.480 --> 00:40:58.585 たくさんの仕事を… 00:41:00.125 --> 00:41:02.033 小中学校とは言いませんが 00:41:02.033 --> 00:41:05.495 若い生徒たちに行ってもらえます 00:41:05.915 --> 00:41:10.866 その可能性を 取り入れていただければと思います 00:41:10.866 --> 00:41:15.272 現時点で 私は十分に理解していないので 00:41:15.272 --> 00:41:22.155 タスクの作成や実用的な仕事が できるわけではありません 00:41:22.155 --> 00:41:25.772 どんな支援や意見についても ここのどなたかがお持ちであれば 00:41:25.772 --> 00:41:29.648 ご自身のご意見も含め お聞かせいただければ 00:41:30.508 --> 00:41:32.129 ええ 後ほどお話しましょう 00:41:35.473 --> 00:41:37.139 他にご質問は? 00:41:37.809 --> 00:41:39.195 先ほど挙手がありましたが 00:41:39.195 --> 00:41:40.495 どなたでしょう 00:41:45.739 --> 00:41:49.996 (発言者13)ウィクショナリーから インポートできないなら 00:41:49.996 --> 00:41:55.730 他のパブリック ドメインのソースや あらゆるデータを見つけるための 00:41:55.730 --> 00:41:57.459 協調努力はありますか 00:41:58.769 --> 00:42:03.167 それを事前にフィルタリングしたり 整理したりすれば 00:42:03.167 --> 00:42:08.470 人々が確認して インポートしやすくなります 00:42:09.093 --> 00:42:11.181 努力はあります 00:42:11.181 --> 00:42:14.769 私の知る限り バスク語がその努力の1つですが 00:42:14.769 --> 00:42:17.474 それについて 仰りたいことがあればどうぞ 00:42:18.416 --> 00:42:20.120 (聴衆14)[聞き取り不能] 00:42:23.166 --> 00:42:27.148 解決策は それに対する支払いです... 00:42:28.374 --> 00:42:33.381 私たちには通常 一緒に仕事をしている 委託業者との契約があり 00:42:34.801 --> 00:42:38.094 彼らが辞書関連の仕事をしています 00:42:38.755 --> 00:42:42.458 他の業務に加えて 辞書関連の仕事をしています 00:42:42.458 --> 00:42:47.473 私たちは業者と生徒向けの無料の 辞書を開発する契約をしており 00:42:47.473 --> 00:42:50.499 最も一般的な言葉を[キャスト]し 00:42:50.499 --> 00:42:55.590 外部識別子やスキーマと共に アップロードするものです 00:42:56.420 --> 00:43:02.902 それをパブリック ドメイン(CC0)に することには議論がありました 00:43:03.012 --> 00:43:05.792 CCを伴う辞書を 所有しているからです 00:43:06.977 --> 00:43:10.011 彼らは相違点を理解していました 00:43:10.326 --> 00:43:13.746 ですから 議論はありましたが 00:43:13.746 --> 00:43:19.709 将来 私たちがツールや事例を 提供できると思いますし 00:43:19.709 --> 00:43:23.781 私たちが扱える 他の辞書も予定されています 00:43:24.016 --> 00:43:29.274 ウィクショナリーもその方向に 進み始めたほうがいいと思いますが 00:43:29.274 --> 00:43:32.260 それはまた 別の大きな議論が必要でしょう 00:43:33.285 --> 00:43:34.487 それに加えて 00:43:34.487 --> 00:43:38.839 オクシタン語の辞書に取り組む オクシタン出身の人々と 00:43:38.839 --> 00:43:41.827 リーアが連携して 00:43:41.827 --> 00:43:45.138 現在 シュメール語の コラボレーションに取り組んでいます 00:43:51.644 --> 00:43:53.363 他にご質問は? 00:44:01.487 --> 00:44:05.349 (聴衆15)オクシタン語のデータを インポートしたいのですが 00:44:05.349 --> 00:44:06.585 いいタイミングですね 00:44:06.585 --> 00:44:08.368 (聴衆15)少し問題があり 00:44:09.188 --> 00:44:14.215 多様な語彙素のすべてを表す 方法が分かりません 00:44:14.215 --> 00:44:17.893 私たちには6つの方言があり 00:44:17.893 --> 00:44:24.014 どの方言が使われているかを 語彙素に示したいのです 00:44:24.014 --> 00:44:27.285 でも それを行うのに 適切なC0文がありません 00:44:27.285 --> 00:44:31.585 セグメントが存在しない限り 00:44:31.635 --> 00:44:34.465 [聞き取り不能]ができません 00:44:34.465 --> 00:44:37.603 文へエキスポートできるようになった時に 00:44:37.603 --> 00:44:42.076 再度行う必要が出てくるからです 00:44:42.076 --> 00:44:47.801 たくさんの人が依頼する 文ではないので 複雑です 00:44:47.802 --> 00:44:53.054 大抵は少数言語に 関係する文だからです 00:44:53.444 --> 00:44:56.933 依頼するのが一人だけのこともあります 00:44:56.933 --> 00:45:00.022 ですが バスク語の同僚たちにとっては 00:45:00.022 --> 00:45:06.082 一人でも 何千もの他の人に 力を与えられるかもしれません 00:45:06.082 --> 00:45:10.884 ですから 依頼が多くなくても 00:45:10.884 --> 00:45:14.136 重要なのです 00:45:14.874 --> 00:45:17.600 新しいプロパティの提案は 済んでいますか? 00:45:17.600 --> 00:45:19.470 それとも提案に協力が必要ですか? 00:45:21.524 --> 00:45:24.300 (聴衆15)4か月前にお願いしました 00:45:24.720 --> 00:45:28.755 では誰かにそのプロパティの提案に 協力してもらいましょう 00:45:30.159 --> 00:45:33.092 この部屋に 実現してくれる人が 十分いるはずです 00:45:33.240 --> 00:45:35.922 (聴衆15)プロパティ提案 [フランス語] 00:45:36.105 --> 00:45:39.699 回答がなく方法が分かりません 00:45:39.699 --> 00:45:42.953 私たちはウィキデータの コミュニティーには属していませんから 00:45:44.694 --> 00:45:48.817 ええ ですから ここに協力できる人たちがいます 00:45:48.817 --> 00:45:52.134 ご協力いただける方は 手を挙げてください 00:45:52.234 --> 00:45:53.684 (聴衆14)私がやります 00:45:53.684 --> 00:45:55.512 語形の異形だけでなく 00:45:55.512 --> 00:46:02.359 座標や何らかのマッピングで それを地理的にも扱えるのが 00:46:02.359 --> 00:46:04.747 とても興味深いです 00:46:05.595 --> 00:46:07.815 異なる発音があるということも 00:46:07.815 --> 00:46:11.837 たくさんの言語に 当てはまることだと思います 00:46:12.607 --> 00:46:16.262 実現に向けて取り組むべきです 00:46:16.262 --> 00:46:18.865 プロパティを検索します 00:46:19.782 --> 00:46:20.933 いいですね 00:46:20.933 --> 00:46:24.446 あなたのプロパティ提案に サポートがあるはずです 00:46:26.136 --> 00:46:27.297 ありがとうございます 00:46:28.153 --> 00:46:30.261 他にご質問は? 00:46:32.410 --> 00:46:33.474 フィン 00:46:33.974 --> 00:46:37.515 フィンは辞書学データを基に 開発している者の一人です 00:46:38.031 --> 00:46:40.085 (フィン)ちょっとした質問ですが 00:46:40.405 --> 00:46:44.226 異なる綴りについてです 00:46:44.896 --> 00:46:48.002 作業が難しいようです 00:46:48.532 --> 00:46:53.368 もちろん 同じ言葉に 複数の語形がある場合はありますが 00:46:56.327 --> 00:46:58.448 どうやら… 00:46:59.558 --> 00:47:03.535 そうでなければ 規定が難しく 00:47:04.771 --> 00:47:09.578 単に小さな技術面での問題なのか 分かりませんが 00:47:09.731 --> 00:47:11.252 後で一緒に話しましょう 00:47:11.642 --> 00:47:15.230 例を見てみたいです 00:47:17.478 --> 00:47:18.478 アザーフ 00:47:26.886 --> 00:47:28.396 (アザーフ)ありがとう 00:47:29.386 --> 00:47:33.685 私の母国語ヘブライ語から 具体例を挙げますと 00:47:34.205 --> 00:47:38.845 ヘブライ語には ほぼすべての言葉の表現に 00:47:38.845 --> 00:47:42.786 2つ主な異形があります 00:47:42.786 --> 00:47:49.864 伝統的な綴りでは 多くの母音が除外されるからです 00:47:50.934 --> 00:47:55.049 ですから 聖書や詩の現代版では 00:47:55.207 --> 00:47:56.991 付加記号が使われています 00:47:57.461 --> 00:48:00.166 しかしながら こうした付加記号は 00:48:00.166 --> 00:48:04.074 現代の散文や新聞記事や 道路標識などでは 00:48:04.074 --> 00:48:05.974 全く使われていません 00:48:05.974 --> 00:48:11.209 ですから 平均的な 日常のカジュアルな使用では母音を加え 00:48:12.169 --> 00:48:13.519 付加記号を使いません 00:48:13.519 --> 00:48:15.310 より面倒なことになり 00:48:15.310 --> 00:48:18.033 いろいろな規則があるものの 誰も理解していないからです 00:48:18.633 --> 00:48:20.531 ですから 2つの異形があって 00:48:20.531 --> 00:48:25.322 日常のカジュアルな散文で 使われるものと 00:48:25.322 --> 00:48:30.307 常に伝統的な 記号が付加された文章で現れる 00:48:30.307 --> 00:48:32.200 聖書や詩で使われるものです 00:48:32.200 --> 00:48:33.772 語彙素が役立つには 00:48:33.772 --> 00:48:37.428 ありとあらゆる言葉と ありとあらゆる言葉の語形の 00:48:37.428 --> 00:48:39.747 両方の異形を 認識する必要があります 00:48:40.677 --> 00:48:43.391 これは公式の不変の異形に対する 00:48:43.391 --> 00:48:46.340 とても包括的なユースケースです 00:48:46.340 --> 00:48:48.942 方言ではなく 地域でもなく 00:48:49.332 --> 00:48:53.627 2つの共存している 形態体系なのです 00:48:54.537 --> 00:48:58.926 現在の語彙素でこれを表す方法を 私もよく分かっていません 00:48:58.926 --> 00:49:02.720 マグナスの質問に一部 回答することになりますがー 00:49:02.720 --> 00:49:05.668 公開されている最大のヘブライ語辞書から 準備できている部分を 00:49:05.668 --> 00:49:08.102 私がアップロードできていない 理由の1つです 00:49:08.102 --> 00:49:13.141 その辞書は私が7年間デジタル化しており 00:49:13.141 --> 00:49:14.803 かなりの量が準備できていますが 00:49:14.803 --> 00:49:16.549 現在語彙素に移していません 00:49:16.549 --> 00:49:20.245 この問題の解決法が よく分からないからです 00:49:20.245 --> 00:49:23.387 では その問題を ここで解決しましょう(笑) 00:49:24.503 --> 00:49:26.021 可能なはずです 00:49:30.045 --> 00:49:32.047 では 他に質問は? 00:49:37.173 --> 00:49:39.735 なければ以上です ありがとうございました 00:49:40.605 --> 00:49:42.675 (拍手)