0:00:00.491,0:00:02.365 [ウィキデータと言語] 0:00:02.365,0:00:05.946 [リディア・ピンチャー][br][ウィキデータと言語] 0:00:05.946,0:00:07.294 ありがとうございます 0:00:07.362,0:00:11.244 この会議で大きなテーマの1つは[br]言語です 0:00:14.220,0:00:15.993 これからお伝えするのは 0:00:15.993,0:00:18.499 言語に関する現状と 0:00:18.499,0:00:21.977 将来の展望についての概要です 0:00:29.036,0:00:30.222 ウィキデータの使命は 0:00:30.222,0:00:33.519 もっと多くの人が豊富な知識を[br]利用できるようにすることです 0:00:33.519,0:00:37.298 言語はそれを実現するのに[br]極めて重要です 0:00:38.205,0:00:43.291 特に 私たちの生活はますます[br]テクノロジーに依存しているため 0:00:44.114,0:00:48.873 今日の基調講演で[br]講演者が話していたように 0:00:49.723,0:00:51.588 ある言語を話せないことにより 0:00:51.588,0:00:55.020 テクノロジーが[br]人を置き去りにする場合があります 0:00:55.320,0:00:57.255 それは良いとは言えません 0:00:58.633,0:01:02.097 何とかしたいと思っています 0:01:02.927,0:01:05.841 改善のためには[br]少なくとも 次の2つが必要です 0:01:06.411,0:01:11.124 1つは 皆さんのの言語で[br]コンテンツを提供することです 0:01:11.270,0:01:13.985 2つ目は アプリケーションなど[br]何においても 0:01:13.985,0:01:19.189 皆さんの言語で[br]やりとりすることです 0:01:20.367,0:01:24.888 ウィキデータは[br]この2つの点に役立ちます 0:01:25.277,0:01:28.408 まず 皆さんの言語での[br]コンテンツですが 0:01:28.408,0:01:31.239 これは基本的に[br]項目とプロパティにある内容で 0:01:31.319,0:01:33.082 私たちが世界を表す方法です 0:01:33.082,0:01:35.085 必要なものは[br]これだけではないですが 0:01:35.085,0:01:39.294 これにより[br]改善が進むはずです 0:01:39.764,0:01:41.847 もう1つは[br]皆さんの言語によるやりとりです 0:01:41.847,0:01:46.389 ここが語彙素の出番です 0:01:46.389,0:01:49.382 携帯端末の[br]音声アシスト機能を利用する場合や 0:01:49.382,0:01:54.918 デバイスに文章を翻訳させたい場合[br]などに活躍します 0:01:56.404,0:01:59.254 では 皆さんの言語でのコンテンツを[br]見ていきましょう 0:01:59.254,0:02:03.396 これは items(項目)と[br]properties(プロパティ)の内容です 0:02:05.406,0:02:09.696 コンテンツには[br]項目とプロパティにあるラベルが重要です 0:02:10.236,0:02:14.866 話題のエンティティが[br]何と呼ばれるか知る必要があります 0:02:15.656,0:02:19.987 「Q5」が話題である場合 0:02:19.987,0:02:22.180 それは英語話者にとっては[br]「human」であり 0:02:22.180,0:02:24.706 ドイツ語話者とっては[br]「mensch」である 0:02:24.706,0:02:26.374 というようなものです 0:02:26.374,0:02:29.742 項目とプロパティに付いた[br]こうしたラベルは 0:02:29.742,0:02:33.619 人間と機械 そして人間と人間の 0:02:33.619,0:02:35.439 ギャップを埋めてくれます 0:02:35.439,0:02:40.115 それにより 既存の知識が 皆にとって[br]さらに利用しやすくなっています 0:02:43.270,0:02:46.290 これには期待が持てますね[br][範囲の状況は?] 0:02:46.290,0:02:48.342 実際の状況はどうでしょうか 0:02:48.342,0:02:49.607 このようになっています 0:02:50.947,0:02:52.416 ここで分かることは 0:02:52.416,0:02:56.338 ウィキデータにある[br]項目の大半には 0:02:56.338,0:03:00.767 2つの言語で[br]ラベルがあるということです 0:03:01.697,0:03:03.851 それに次いで[br]1つ、3つの言語 0:03:03.851,0:03:06.115 その後は悲しい状態です 0:03:06.781,0:03:08.581 (静かな笑い) 0:03:10.047,0:03:12.713 これを改善しましょう 0:03:14.185,0:03:15.319 でも一方では 0:03:15.319,0:03:17.478 もっと悪い状況を想像していました 0:03:17.478,0:03:19.560 平均は1言語だと思っていましたから 0:03:19.560,0:03:22.503 2言語だと分かって満足です(笑) 0:03:24.921,0:03:26.186 では次 0:03:27.156,0:03:33.700 興味深いのは 項目とプロパティにある[br]ラベルの数だけでなく 0:03:33.742,0:03:36.565 どの言語か知ることも[br]興味深いものです 0:03:38.045,0:03:41.363 ここに示されているグラフは 0:03:42.748,0:03:46.767 Items(項目)にラベルがある言語です 0:03:46.838,0:03:50.669 大きく占めているのは[br]Otherです 0:03:51.229,0:03:53.863 グラフが読めるよう 0:03:54.533,0:03:58.902 上位100の言語を抽出したので[br]その他がOtherになっています 0:03:59.542,0:04:02.142 英語、オランダ語 0:04:03.002,0:04:04.254 フランス語 0:04:05.924,0:04:08.924 そして特に アストゥリアス語 0:04:09.659,0:04:11.749 - (聴衆1)やった![br]- 嬉しいですね! 0:04:13.899,0:04:16.954 不均衡になっていることが[br]ここで分かりです 0:04:16.954,0:04:20.114 英語が多くの比率を占めています 0:04:21.236,0:04:24.367 同様にProperties(プロパティ)の[br]グラフを見ると 0:04:24.367,0:04:25.999 こちらのほうが[br]均衡が取れています 0:04:27.399,0:04:32.750 これはプロパティがはるかに[br]少ないことにもよるのでしょう 0:04:32.750,0:04:36.770 ですから比較的小さなコミュニティーでも[br]引けをとりません 0:04:36.770,0:04:39.042 皆さんの言語に[br]ローカライズすることは 0:04:39.042,0:04:41.159 ウィキデータの[br]重要な部分でもありますから 0:04:41.159,0:04:42.384 これは良いことです 0:04:45.752,0:04:48.860 ここで強調したいことは[br]アストゥリアス語で 0:04:49.564,0:04:51.740 小さなコミュニティーでも 0:04:51.740,0:04:57.085 熱意と仕事で[br]大きな変化をもたらせるということです 0:04:57.085,0:04:58.420 素晴らしいことです 0:05:01.846,0:05:03.184 皆さんに質問です 0:05:03.530,0:05:07.240 ウィキデータで外部識別子を除く[br]すべてのプロパティのうち 0:05:07.687,0:05:10.458 どれに多くのラベルが[br]つまり多くの言語があるでしょうか 0:05:10.977,0:05:13.847 (聴衆)[聞き取り不能] 0:05:13.847,0:05:16.786 instance of[br]という声があがりましたね 0:05:17.506,0:05:19.443 違います 0:05:19.983,0:05:22.210 正解はimageです(笑) 0:05:23.230,0:05:28.516 あなたが instance ofに[br]まだラベルがない言語を話すなら 0:05:28.621,0:05:30.190 追加してください 0:05:31.972,0:05:35.676 現在 ラベルの数は148です 0:05:37.653,0:05:40.953 別のスライドです 0:05:42.631,0:05:44.042 このグラフは 0:05:44.042,0:05:49.321 どれだけのコンテンツが[br]ある言語で利用できるようになっているか 0:05:49.321,0:05:52.042 またどれだけそのコンテンツが[br]利用されたかを示しています 0:05:52.042,0:05:55.448 これは曲線ですよね 0:05:55.448,0:06:00.987 大半のコンテンツに[br]英語のラベルがあり 英語で利用でき 0:06:01.507,0:06:03.735 たくさん利用されています 0:06:04.295,0:06:06.449 そして値は下がっていきます 0:06:06.449,0:06:09.436 ですが 外れ値もあり 0:06:09.436,0:06:15.333 必然的に予想されるよりも[br]たくさんのコンテンツがあります 0:06:16.903,0:06:19.539 これはとても良いことです 0:06:20.839,0:06:24.945 課題はそれほど利用されていないことです 0:06:25.565,0:06:28.522 アストゥリアス語やオランダ語は[br]もっと利用度が高いはずです 0:06:28.742,0:06:32.451 コミュニティーに協力することにより 0:06:33.266,0:06:37.606 収集データの利用度が向上するのは[br]良いことだと思います 0:06:42.910,0:06:47.067 こちらと先ほどの分析は[br]良い結果を示しています 0:06:47.137,0:06:51.378 ですが 利用度が高い項目に 0:06:51.378,0:06:55.295 より多くのラベルがある[br]傾向があります 0:06:55.295,0:06:57.964 または多くのラベルがあると[br]利用度が高いのでしょうか 0:07:02.513,0:07:04.376 そこで疑問は 0:07:04.806,0:07:07.009 私たちは強力な言語のみを[br]サポートしているのか 0:07:07.899,0:07:11.237 または あらゆる言語を[br]サポートしているのかです 0:07:12.757,0:07:17.429 こちらは言語の分類です 0:07:17.743,0:07:21.832 同じ分類の言語には[br]同じラベルがある傾向があります 0:07:26.042,0:07:28.338 クラスタする傾向が見られます 0:07:28.599,0:07:32.238 こちらは同様のクラスタ分析ですが 0:07:33.018,0:07:39.231 言語の健在度、利用度、[br]危険度に基づいて 0:07:40.256,0:07:42.778 色分けされています 0:07:43.156,0:07:44.642 良い結果として 0:07:44.642,0:07:49.566 安全言語と危機言語とで 0:07:49.566,0:07:53.773 異なるクラスタを[br]形成していないことです 0:07:53.773,0:07:58.872 すべて混じり合っています 0:08:00.262,0:08:04.625 この逆の結果よりも[br]ずっと良いことですよね 0:08:04.625,0:08:09.377 安全言語[br]強力な言語の間だけで 0:08:10.197,0:08:13.939 助け合っている[br]ということではありませんから 0:08:14.356,0:08:17.417 これはとても良いことです 0:08:17.417,0:08:19.871 これを見た時[br]良いことだと思いました 0:08:23.474,0:08:27.769 これも同様の分析データで 0:08:30.230,0:08:35.787 言語状況と[br]言語が所有するラベル数です 0:08:39.257,0:08:42.937 安全言語(分類1)は[br]明らかに勝っており 0:08:42.937,0:08:44.248 予想どおりです 0:08:45.508,0:08:47.233 ですが 0:08:49.063,0:08:54.127 分類2(不安定)、3(危機)[br]4(極めて危険)に分類される言語でさえ 0:08:54.407,0:08:59.280 ウィキデータとその他における[br]表出に関して 0:08:59.280,0:09:02.367 それほど悪くはありません 0:09:03.287,0:09:05.777 それが分かって良かった点です 0:09:07.646,0:09:09.136 同様に 0:09:09.136,0:09:11.111 例えばウィキペディアでの 0:09:11.111,0:09:15.275 こうしたラベルのコンテンツの[br]利用度を見ると 0:09:17.455,0:09:22.563 ここでも同様の結果が分かります 0:09:23.603,0:09:26.676 つまり こうしたコミュニティーは 0:09:26.676,0:09:30.753 例えば 利用度の高い項目に[br]ラベルを入力することにより 0:09:30.753,0:09:34.504 その時間を[br]有益に活用しているのです 0:09:36.410,0:09:37.763 外れ値については 0:09:37.763,0:09:44.510 コミュニティーが[br]その仕事が最も役立つ場を見つけられるよう 0:09:44.510,0:09:48.202 私たちが協力できるところだと思います 0:09:49.312,0:09:52.663 総合的には[br]この分析結果に満足しています 0:09:54.823,0:09:59.844 ウィキデータの項目とプロパティを[br]ご説明しました 0:10:00.714,0:10:03.033 次に皆さんの言語でのやりとりを[br]見ていきましょう 0:10:03.033,0:10:05.203 ウィキデータの語彙素です 0:10:05.203,0:10:09.394 ここで語彙、語形、語義を表します 0:10:10.167,0:10:13.008 去年の5月からこれを行っていて 0:10:16.461,0:10:18.782 コンテンツは増加してきています 0:10:20.114,0:10:22.279 こちらの青が語彙素で 0:10:22.279,0:10:25.938 赤が語彙素における語形 0:10:25.938,0:10:29.910 黄色が語彙素における[br]語義を示しています 0:10:30.991,0:10:34.451 後でも取り上げますが[br]コミュニティーの一部は 0:10:34.451,0:10:39.793 語彙素の語形や語義の作成に[br]たくさんの時間を費やしています 0:10:39.793,0:10:42.753 これは有益です 0:10:42.753,0:10:47.765 皆さんが必要なデータセットの中核が[br]構築されるからです 0:10:50.562,0:10:57.466 次に ウィキデータに語彙素がある[br]すべての言語を見てみました 0:10:57.906,0:11:01.003 つまりウィキデータにある[br]言語の数です 0:11:01.713,0:11:04.404 現在 言語の数は310です 0:11:04.884,0:11:08.290 では ウィキデータの[br]現在の語彙素数に関しては 0:11:08.290,0:11:11.949 何語が第1位だと思いますか 0:11:12.933,0:11:15.042 (聴衆)ロシア語[br][聞き取り不能] 0:11:19.183,0:11:20.216 何ですって? 0:11:20.216,0:11:21.741 (聴衆2)ドイツ語 0:11:21.741,0:11:23.642 先ほど聞こえてきたように 0:11:24.252,0:11:25.315 ロシア語です 0:11:28.011,0:11:29.754 ロシア語が抜きん出ています 0:11:31.897,0:11:33.710 相対感が分かるように[br]ご説明しますと 0:11:35.652,0:11:37.856 異なる意見はありますが 0:11:38.026,0:11:44.672 例えば 別の言語で[br]千から3千語で会話レベル 0:11:44.672,0:11:49.461 4千から1万語で[br]上級レベルに達するそうです 0:11:51.591,0:11:55.282 ですからまだ[br]そこまでのレベルには達していません 0:11:58.483,0:12:02.779 1つ注目していただきたいのは[br]ここのバスク語で 0:12:03.279,0:12:07.744 約1万の語彙素があります 0:12:09.244,0:12:13.003 次に こうした語彙素に対する[br]語形の数を見てみると 0:12:14.163,0:12:16.497 バスク語が[br]かなり上位にあります 0:12:18.257,0:12:20.006 これはすごいですよね 0:12:20.006,0:12:24.930 この理由を説明する講演にも[br]ぜひご参加ください 0:12:27.121,0:12:30.779 次に 言葉の意味に当たる[br]語義の数を見てみると 0:12:32.015,0:12:34.624 バスク語がなんとリストの第1位です 0:12:34.961,0:12:36.781 これは拍手に値すると思います 0:12:37.102,0:12:38.921 (拍手) 0:12:45.678,0:12:46.899 皆さんに別の質問です 0:12:47.118,0:12:50.181 現在 最も翻訳されている[br]語彙素は何でしょうか 0:12:50.651,0:12:55.414 (聴衆)ネコ[br]ダグラス・アダムス[聞き取り不能] 0:12:56.766,0:13:00.014 すべて良い推測ですが 違います 0:13:01.012,0:13:04.137 これです[br]ロシア語の「水」です 0:13:09.571,0:13:16.253 ウィキデータにある語彙素や語形や語義の[br]数についてはお話しましたが 0:13:16.412,0:13:21.501 それは必要なことの1つで[br]他に必要なのは 0:13:21.515,0:13:24.985 こうした語彙素や語形や意味を 0:13:24.985,0:13:27.090 機械に読める方法で[br]表現することです 0:13:27.647,0:13:30.039 それには 文が必要で[br]項目はその一例です 0:13:31.479,0:13:36.362 使用するプロパティの1つは[br]文例です 0:13:36.362,0:13:38.582 これで データを使用している誰もが 0:13:38.582,0:13:42.037 文脈に応じて[br]その言葉の使い方を理解できます 0:13:42.037,0:13:44.158 例えば 引用などが考えらます 0:13:45.396,0:13:47.113 ここではポーランド語が第1位です 0:13:47.900,0:13:49.814 ポーランド語話者の方々[br]頑張りましたね 0:13:54.219,0:13:57.680 もう1つ役立つプロパティは[br]IPA(発音記号)です 0:13:57.680,0:13:59.967 語彙の発音の仕方です 0:14:00.876,0:14:07.497 ロシア語は IPA文を[br]たくさん必要としていますね 0:14:10.419,0:14:13.314 ですがここでも[br]ポーランド語が第2位です 0:14:17.148,0:14:20.753 ウィキデータには[br]音声データもあります 0:14:20.758,0:14:25.583 発せられた言葉を収めた[br]ファイルへのリンクがコモンズにあるので 0:14:25.959,0:14:28.630 発音記号を読めない場合などに 0:14:28.630,0:14:32.871 ネイティブ スピーカーの[br]発音を聞くことができます 0:14:34.959,0:14:36.765 またウィキベースを動力とする 0:14:36.765,0:14:40.474 Lingua Libreという[br]プロジェクトがあります 0:14:40.884,0:14:45.173 ご自分の言語での[br]言葉の録音に協力して 0:14:45.173,0:14:47.836 ウィキデータの語彙素へ追加すると 0:14:48.446,0:14:52.103 他の人がその言葉の[br]発音の仕方を理解できます 0:14:53.663,0:14:55.694 (聴衆2)[聞き取り不能] 0:14:55.694,0:14:57.703 「Lingua Libre」と検索すると 0:14:57.703,0:15:00.981 テレグラムに[br]誰かがそれを投稿してくれるはずです 0:15:03.138,0:15:04.621 彼らは素晴らしく 0:15:04.621,0:15:06.726 ウィキベースで[br]優れた仕事をしています 0:15:12.706,0:15:17.285 次に知りたいのは[br]将来の展望です 0:15:19.165,0:15:22.010 お見せしたデータに基づくと 0:15:23.030,0:15:25.172 ウィキデータの言語を見ると 0:15:25.172,0:15:28.430 もっと多くの人に 豊富な知識への[br]アクセスを提供しようと 0:15:28.430,0:15:31.240 長い道のりをここまで来ました 0:15:32.530,0:15:36.392 ですが この先にも[br]たくさんの仕事が控えています 0:15:38.992,0:15:42.341 例えば 皆さんが協力できることとして 0:15:42.341,0:15:46.255 マラソンのように[br]皆で集まって一斉に 0:15:46.255,0:15:50.124 ウィキデータで[br]項目にラベル付けをするとか 0:15:50.914,0:15:55.121 皆さんの言語の[br]語彙素を編集して 0:15:55.121,0:15:59.212 最も利用されている言葉を皆さんの言語で[br]ウィキデータに収めるようなことです 0:16:00.773,0:16:03.285 またはTerminatorのような[br]ツールを使用して 0:16:03.285,0:16:08.120 皆さんの言語で[br]まだラベルが付いていない 0:16:08.120,0:16:11.529 最重要項目を[br]見つけてもいいでしょう 0:16:13.274,0:16:16.666 重要度を測るには 0:16:16.666,0:16:20.940 文中のリンクのような[br]他のウィキデータの項目における 0:16:20.940,0:16:22.349 利用頻度によります 0:16:25.768,0:16:30.022 もちろん 語彙素に関しては 0:16:31.342,0:16:35.169 現在 基本的な語彙素は[br]カバーしていますので 0:16:35.169,0:16:41.132 今後 大事なのは[br]開発とさらなる文の追加です 0:16:41.132,0:16:44.467 しっかりとした基礎を築いて 0:16:44.467,0:16:47.421 その上に有意義な[br]アプリケーションを開発することです 0:16:48.141,0:16:50.768 その臨界点には近付いてはいても 0:16:50.768,0:16:56.410 基礎の上に本格的なアプリケーションを[br]開発できる所までは到達していないからです 0:16:58.277,0:17:01.520 皆さんにその仕事に[br]ご参加いただければと思います 0:17:02.583,0:17:09.405 ここでちょっと[br]友人から協力してもらいましょう 0:17:09.843,0:17:12.493 ブリューノ[br]こちらへご登壇を 0:17:13.882,0:17:16.744 Lexicon Mask[br](辞書マスク)のお話をどうぞ 0:17:16.881,0:17:19.036 (ブリューノ)ありがとう リディア 0:17:19.036,0:17:22.519 Googleでの仕事をお伝えする[br]時間をいただきまして 0:17:22.519,0:17:24.150 ありがとうございます 0:17:24.150,0:17:29.275 デニーのことは[br]ご存知の方も多いでしょう 0:17:30.126,0:17:32.030 Googleで[br]私は言語学者ですから 0:17:32.030,0:17:36.150 言語に熱意のある方々に囲まれ[br]うれしく思います 0:17:36.620,0:17:39.278 私たちは[br]辞書を開発しています 0:17:39.278,0:17:45.346 また皆さんに役立つテクノロジーや[br]アプローチを開発しています 0:17:46.369,0:17:48.455 背景を少々お伝えしますと 0:17:48.455,0:17:51.907 これがここでお話している[br]辞書編集の背景です 0:17:52.788,0:17:54.977 辞書データベースを開発した際に 0:17:54.977,0:17:56.662 恐らくご存知のように 0:17:56.662,0:18:01.775 データの維持や一貫性の保持や交換に[br]悪銭苦闘しました 0:18:02.074,0:18:05.959 語彙素や語形を表している 0:18:05.959,0:18:09.184 特性やプロパティをまとめようと[br]何度も試み 0:18:09.184,0:18:10.936 完全には解決していませんが 0:18:10.936,0:18:13.592 その面でいくらか統一されています 0:18:13.742,0:18:15.269 ですが不足していたのは― 0:18:15.269,0:18:18.732 これはGoogleでのプロジェクト[br]開始時から抱えていた課題ですが 0:18:18.732,0:18:21.517 内部構造を持つ努力でした 0:18:22.197,0:18:25.910 しかるべき語彙記載項や 0:18:25.910,0:18:28.581 データの種類や[br]所有情報の種類や 0:18:28.581,0:18:32.237 予期される規定などを[br]表す内部構造です 0:18:32.237,0:18:38.187 そこで Lexicon Mask[br]というものを考案しました 0:18:38.897,0:18:44.841 Lexicon Maskが表すのは[br]エントリに予期される内容で 0:18:44.841,0:18:47.329 完了予定の[br]辞書編集エントリです 0:18:47.329,0:18:51.436 これには[br]語彙に予期される語形の数と 0:18:51.436,0:18:55.607 各語形に予期される特性の数の[br]双方が含まれます 0:18:56.397,0:18:58.329 これはイタリア語の形容詞の例です 0:18:58.329,0:19:02.002 イタリア語では 形容詞に対して[br]4つの語形が予期されます 0:19:02.002,0:19:04.493 性や数の特性に関して 0:19:04.493,0:19:07.946 各語形に特別な組み合わせがあります 0:19:08.606,0:19:12.672 これがイタリア語の形容詞に[br]予期されることです 0:19:12.672,0:19:16.176 もちろん 極めて複雑な[br]マスクになる可能性もあります 0:19:16.176,0:19:20.783 例えば フランス語の動詞活用は[br]かなり広範囲です 0:19:20.783,0:19:23.487 ロシアのマスクは[br]画面に収まらないので 0:19:23.487,0:19:25.378 今は表示されていません 0:19:26.308,0:19:29.531 詳細規定もあります 0:19:29.531,0:19:33.421 語形レベルで識別するからです 0:19:33.421,0:19:35.036 これはロシア語の名詞で 0:19:35.036,0:19:40.048 異なる語形での[br]事例数が3つありますが 0:19:40.048,0:19:43.086 エントリレベルの規定もあって 0:19:43.086,0:19:45.590 特に名詞に 0:19:45.590,0:19:50.133 固有の性と[br]固有の有生性の特性があり 0:19:50.133,0:19:52.488 これもマスクの中で規定されています 0:19:54.518,0:20:00.099 また マスクが一般的に[br]しかるべきエントリに与える規定を 0:20:00.099,0:20:01.874 識別することが必要ですが 0:20:01.874,0:20:07.158 言語に発生する[br]語形や語彙の欠如のため 0:20:07.158,0:20:11.282 より小さなマスクになる[br]可能性もあります 0:20:11.282,0:20:14.537 これがフランス語の動詞の[br]最もシンプルなバージョンで 0:20:14.537,0:20:18.535 例えば「雨が降る」[br]「雪が降る」のような 0:20:18.535,0:20:23.969 天候に関する動詞すべてに[br]三人称単数があるだけです 0:20:24.537,0:20:26.743 ですからこれら2つのレベルを識別します 0:20:26.923,0:20:29.962 Googleでこれを使用する方法は 0:20:29.962,0:20:32.643 使いたい辞書がある場合 0:20:33.063,0:20:38.309 文字通りマスクを[br]辞書に投げて 0:20:38.309,0:20:40.163 すべてのエントリを[br]マスクを通して 0:20:40.163,0:20:44.303 どのエントリに[br]構造的問題があるか 0:20:44.303,0:20:46.523 語形や特性が[br]不足しているのかを見ます 0:20:46.523,0:20:51.497 問題があれば[br]人が検証を行うか 0:20:51.497,0:20:53.751 マスクを通過するかを見ます 0:20:53.751,0:20:57.924 ですから 構造の品質管理には[br]非常に有益なツールです 0:20:59.427,0:21:01.964 今日発表いたしますのは 0:21:01.964,0:21:05.408 私たちのマスクの[br]オープンソース化です 0:21:05.948,0:21:07.573 これがスキーマです 0:21:07.573,0:21:09.477 ご希望があれば[br]公開して 0:21:09.477,0:21:13.483 ShExファイルとして[br]ウィキデータに提供します 0:21:13.483,0:21:16.688 これがドイツ語名詞に対する[br]ShExファイルです 0:21:16.688,0:21:21.058 内部仕様からオープンソース仕様への[br]コンバージョンに 0:21:21.058,0:21:23.350 デニーが取り組んでいます 0:21:23.666,0:21:27.265 現在 25言語超をカバーしています 0:21:27.265,0:21:30.199 ウィキデータの発展を[br]期待しているだけでなく 0:21:30.199,0:21:34.350 他の言語に対する[br]協働の機会を求めてもいます 0:21:34.350,0:21:40.728 ダニーがルーカスと進行中の[br]コラボレーションの1つは 0:21:40.728,0:21:45.052 ルーカスが持つ優れたツールで 0:21:45.052,0:21:51.061 UIのヘルプで ユーザーや貢献者に[br]語形を追加してもらうものです 0:21:51.061,0:21:54.151 フランス語で[br]形容詞を追加したい場合 0:21:54.151,0:21:59.057 UIが予期される語形の数と 0:21:59.057,0:22:01.562 語形がどんな特性を持つはずかを[br]教えてくれます 0:22:01.562,0:22:06.268 ですから私たちのマスクが[br]定義と拡張に役立ちます 0:22:07.238,0:22:08.385 以上です 0:22:08.731,0:22:10.298 (リディア)ありがとう 0:22:10.358,0:22:11.993 (拍手) 0:22:14.249,0:22:16.761 ご質問はありますか? 0:22:16.891,0:22:19.381 語彙素について[br]詳しく知りたいですか 0:22:19.817,0:22:22.505 - (聴衆3)知りたいです[br]- 分かりました(笑) 0:22:33.485,0:22:34.750 (聴衆3)私の質問は 0:22:34.750,0:22:39.106 もっと多くの言語で もっと多くの人に[br]利用できるようにすると仰いましたが 0:22:39.106,0:22:42.444 ウィキデータで使用できない言語は[br]たくさんあります 0:22:42.444,0:22:44.246 ウィキデータとしての解決策は? 0:22:45.889,0:22:47.686 ウィキデータで[br]使用できないというのは 0:22:47.686,0:22:50.308 ラベルの記載のお話ですか? 0:22:50.308,0:22:52.578 - (聴衆3)ラベルや説明です[br]- ええ 0:22:52.578,0:22:55.498 語彙素に対しては[br]少し異なります 0:22:55.498,0:22:57.793 語彙素には[br]その制限がないからです 0:22:58.923,0:23:05.003 項目やプロパティのラベルには[br]いくらか制限があります 0:23:05.433,0:23:08.496 ウィキデータでは 0:23:08.496,0:23:14.229 誰もがすべてを行えるようには[br]していないからです 0:23:14.229,0:23:17.769 そうすると[br]管理が難しくなってしまいます 0:23:19.349,0:23:23.328 1つの言語に取り組みたい[br]小さなコミュニティーであっても 0:23:23.898,0:23:26.693 ご要望いただければ[br]実現させます 0:23:26.693,0:23:29.292 (聴衆3)5月にプラハの[br]ハッカソンで要望しましたが 0:23:29.292,0:23:32.459 私たちの言語を使えるようになるには[br]8月にまでかかりました 0:23:32.459,0:23:35.135 - ええ[br]- (聴衆3)遅いのです 0:23:35.135,0:23:37.274 あいにく時間がかかります 0:23:37.854,0:23:39.883 現在 言語委員会と 0:23:39.883,0:23:46.048 基本部分の解決に取り組んでいます 0:23:49.537,0:23:55.447 どの言語が実際「許可」されるか[br]について同意を得るのは 0:23:56.047,0:23:59.398 非常に時間がかかっています 0:23:59.988,0:24:04.178 これがご要望に対して[br]必要以上に時間がかかった理由です 0:24:04.778,0:24:05.963 (聴衆3)ありがとう 0:24:06.815,0:24:07.950 (聴衆4)ありがとう 0:24:07.950,0:24:10.938 リディア [br]見せていただいた統計に 0:24:10.938,0:24:12.886 言語ごとの語彙素の数がありましたが 0:24:12.886,0:24:17.599 データポイントとして[br]すべての語形を合計したんでしょうか 0:24:17.599,0:24:20.034 それとも語彙素だけですか 0:24:21.289,0:24:22.941 (リディア)これですか 0:24:22.941,0:24:24.053 どれですか 0:24:24.053,0:24:25.529 (聴衆4)それです 0:24:25.797,0:24:28.341 この数は[聞き取り不能] 0:24:28.341,0:24:31.954 すべての語彙素に対するすべての語形ですか[br]存在する語彙素の数ですか 0:24:31.954,0:24:35.395 - これは単に語彙素数の数です[br]- (聴衆4)そうですか 0:24:35.395,0:24:36.797 では単なる統計値ですね 0:24:36.797,0:24:39.390 もし語形から成るものだったら... 0:24:39.390,0:24:40.614 それが質問の理由です 0:24:40.614,0:24:42.817 屈折形態を伴うすべての言語― 0:24:42.817,0:24:45.117 例えばロシア語やセルビア語[br]スロベニア語などには 0:24:45.117,0:24:47.616 語形が数多くあることになるので[br]元から有利です 0:24:47.616,0:24:51.990 それがここの語形数に[br]影響しています 0:24:51.990,0:24:53.851 (聴衆4)分かりました[br]ありがとう 0:24:56.546,0:25:00.224 (聴衆5)簡単な質問ですが 0:25:00.644,0:25:06.824 実際の項目とプロパティに関し 0:25:07.124,0:25:08.901 私が理解している限りでは 0:25:08.901,0:25:11.948 与えられた[br]どのラベルや説明にも 0:25:11.955,0:25:15.794 現在 実際のソースを[br]提供する方法はないんですよね 0:25:15.807,0:25:20.920 例えば 項目のプロパティの場合 0:25:20.920,0:25:24.509 相反するラベルが得られるかもしれない 0:25:24.509,0:25:25.739 そうです 0:25:28.402,0:25:30.781 先ほど 固有性というお話がありましたが 0:25:30.781,0:25:35.965 例えば 芸術家が あるソースによれば[br]ノルウェー人であり 0:25:35.965,0:25:38.750 別のソースによれば[br]サーミ人であるとか 0:25:39.550,0:25:41.741 エストニア人であったりします 0:25:42.593,0:25:49.259 公式の辞書の中でその言葉を[br]公式の用語に変える必要がありましたが 0:25:49.482,0:25:52.262 理由を示す方法がありません 0:25:52.262,0:25:53.596 このソースは何だったかとか 0:25:53.596,0:25:55.561 変更理由とか[br]以前の内容などを示せません 0:25:55.561,0:25:59.615 誰かが理由もなく[br]変更したように見えてしまいます 0:25:59.615,0:26:03.350 言語データに対して[br]適切なソースを持てるように 0:26:03.350,0:26:06.355 これを変更する計画はありますか? 0:26:07.045,0:26:11.468 それは部分的に可能です 0:26:11.568,0:26:15.958 例えば 人物に対する項目があって 0:26:16.968,0:26:22.720 その人物に関する[br]文や氏名などが続きます 0:26:22.720,0:26:26.226 そこで出典を付けることができます 0:26:28.211,0:26:32.264 ラベルや説明の出典を 0:26:32.264,0:26:35.557 今より複雑にするのは避けたいですが 0:26:35.557,0:26:41.252 これは 文上のどの出典によっても[br]取り上げられていないと 0:26:41.252,0:26:44.939 人々が強く希望するのであれば 0:26:44.939,0:26:46.803 議論の余地はあります 0:26:49.079,0:26:53.303 ですが 数少ないであろう事例のために 0:26:53.303,0:26:56.523 複雑になってしまうのが心配です 0:26:57.393,0:27:00.188 皆さんが強く望まれるものなら 0:27:00.188,0:27:04.087 喜んでそうしたいのですが 0:27:04.087,0:27:08.177 (聴衆5)追加されるのであれば[br]デフォルトではなく 0:27:08.177,0:27:12.452 初心者などには表示されない[br]インターフェースにして 0:27:12.452,0:27:16.190 「詳細を追加するなら ここをクリック」[br]などとするといいでしょう 0:27:17.632,0:27:23.368 実際 問題になりうる頻度はどうでしょう 0:27:24.520,0:27:26.423 (聴衆5)エストニア語では[br]例えば― 0:27:26.423,0:27:28.844 これは他の言語にも[br]当てはまると思いますが 0:27:29.274,0:27:35.510 例えば 正規に英語に翻訳されている 0:27:36.206,0:27:40.314 特定の行政区の公式名があって 0:27:40.324,0:27:42.182 それが私のユースケースでした 0:27:42.182,0:27:44.409 かつて「parish」という[br]言葉を使っていて 0:27:45.159,0:27:50.628 それが元のエストニア語の言葉では[br]教会区というような意味であり 0:27:50.628,0:27:51.899 それが由来でしたが 0:27:51.899,0:27:54.809 それは現在エストニア語で[br]公式の翻訳ではありません 0:27:55.189,0:27:58.993 そのケースでは[br]公式名を文に追加して 0:27:58.993,0:28:00.817 出典もそこに追加できます 0:28:01.992,0:28:03.218 (聴衆5)分かりました 0:28:05.186,0:28:06.572 他にご質問は? 0:28:07.682,0:28:10.044 (聴衆6)意見が2つあります 0:28:10.044,0:28:13.934 良い成績の言語として[br]アストゥリアス語を特に挙げられましたが 0:28:13.934,0:28:16.455 誤ったアーティファクトだと思います 0:28:16.455,0:28:17.724 教えてください 0:28:17.724,0:28:19.748 (聴衆6)それはボットが 0:28:19.748,0:28:24.068 人名や固有名詞を[br]貼り付けたものだと思います 0:28:24.068,0:28:27.172 「フランス語やスペイン語でも[br]まったく同じ」と言うように 0:28:27.172,0:28:28.558 ただ大量にコピーしたんです 0:28:28.558,0:28:31.766 証拠の1つに[br]アストゥリアス語で 0:28:31.766,0:28:35.440 固有名詞以外の[br]プロパティ名や項目名などで 0:28:35.440,0:28:39.216 翻訳を必要としている取り組みは[br]あまり見られません 0:28:39.648,0:28:41.142 心が痛みます 0:28:41.142,0:28:43.538 (聴衆6)分かります[br]水を差してしまいましたよね 0:28:43.538,0:28:48.458 でも 良いこともあります[br]発音の数です 0:28:49.408,0:28:53.515 恐らくご存知のように[br]コモンズは発音のファイルがいっぱいで 0:28:53.515,0:28:54.668 例えば 0:28:54.668,0:29:01.102 オランダ語はコモンズにすでに[br]30万以上の発音のファイルがあり 0:29:01.912,0:29:05.051 方法はどうあれ[br]取り込まれる必要があるだけです 0:29:05.051,0:29:07.697 サイドプロジェクトを[br]探している方がいれば 0:29:07.697,0:29:08.997 大量に 0:29:08.997,0:29:13.280 分類された発音のファイルが[br]コモンズの 0:29:13.280,0:29:16.893 「Pronunciation(発音)」[br]項目に言語別にあり 0:29:16.893,0:29:22.840 語彙素との一致と語彙素への掲載を[br]ただ待っている状態です 0:29:23.180,0:29:26.574 ロードマップについて[br]言えることはありますか 0:29:26.585,0:29:28.757 投資額とか 0:29:28.757,0:29:31.995 来たる年に[br]語彙素から期待できることなど 0:29:31.995,0:29:34.020 私も待ちきれない一人ですから 0:29:34.949,0:29:37.044 待ちきれないですか?(笑) 0:29:37.044,0:29:39.198 - (聴衆6)期待してます[br]- はい(笑) 0:29:44.541,0:29:49.523 現在は ウィキベースと[br]データの質のほうに力を入れて 0:29:51.493,0:29:55.087 これがどれだけ[br]けん引力を得られるか見ています 0:29:55.087,0:30:01.676 その次に 解決が難しい[br]問題に取り組み 0:30:01.676,0:30:06.003 その後 辞書学データの[br]さらなる改善に戻る予定です 0:30:06.903,0:30:09.790 あなたにお聞きしたいことの1つは 0:30:09.790,0:30:14.136 次のステップとなる箇所と 0:30:14.136,0:30:15.966 改善点を見たい箇所です 0:30:15.966,0:30:20.340 そうすれば[br]実現の方法を考えます 0:30:21.125,0:30:22.810 もちろん仰ることは正しく 0:30:22.810,0:30:25.712 技術面での仕事は[br]まだたくさんあります 0:30:30.573,0:30:35.848 (聴衆7)バスク語の言葉を[br]語形と一緒にアップロードしていた際に 0:30:35.848,0:30:37.768 こんなことがありました 0:30:37.768,0:30:41.329 先週 私たち二人とも[br]自分たちが初だと言っていたら 0:30:42.919,0:30:44.928 報道されて 0:30:44.928,0:30:49.488 「バスク語で初の業績―[br]彼らが初の何かを」と 0:30:49.488,0:30:50.606 (笑) 0:30:50.606,0:30:53.318 そしてこれは何のためかと[br]聞かれたんです 0:30:54.678,0:30:56.849 私たちには[br]良い答えがありませんでした 0:30:56.849,0:30:57.888 これによって 0:30:57.888,0:31:01.841 コンピュータが私たちの言語を[br]理解しやすくなるのは分かりますが 0:31:01.841,0:31:05.279 将来 どんなツールを[br]開発できるでしょうか 0:31:05.279,0:31:07.467 私には分かりませんが 0:31:07.467,0:31:10.625 これに対する[br]良い答えをお持ちでしょうか 0:31:10.625,0:31:12.742 (笑)私に良い答えがあるか[br]分かりませんが 0:31:12.742,0:31:14.746 答えはあります 0:31:15.480,0:31:20.425 現在は 先ほどお伝えしたように 0:31:20.425,0:31:23.504 数々の興味深いツールを[br]開発できるような 0:31:23.504,0:31:25.529 臨界点には達していません 0:31:25.529,0:31:27.707 でもすでに[br]ツールはいくつかあります 0:31:28.267,0:31:31.912 例えば つい先日[br]エスター・パンデリアが 0:31:31.912,0:31:33.817 ツールをリリースしました 0:31:35.837,0:31:38.259 それは世界の言語が 0:31:38.259,0:31:41.901 どこで話され どこから来ているか[br]分かるものです 0:31:42.631,0:31:44.090 確かではありませんが 0:31:44.090,0:31:46.726 ウィキデータのプロジェクトチャット上で[br]公表されました 0:31:46.726,0:31:48.984 お調べいただけます 0:31:49.574,0:31:53.527 ウィキペディア開始時に[br]見ていたように 0:31:53.527,0:31:55.696 最初のツールを見ています 0:31:56.846,0:31:59.602 最初は...[br]ネットワークと同様 0:31:59.602,0:32:03.424 徐々に繋がりが明らかになります 0:32:04.824,0:32:07.059 データが増えるにつれ 0:32:07.059,0:32:10.352 臨界に達して 0:32:11.852,0:32:14.747 性能の良い[br]アプリケーションが可能になります 0:32:15.677,0:32:17.516 例えば ヒストロペディアや 0:32:19.126,0:32:23.746 携帯端末での質疑応答や 0:32:23.746,0:32:26.663 Platypusなどのようなものです 0:32:26.663,0:32:29.668 語彙素でも[br]同様のものを見ています 0:32:31.198,0:32:34.650 このようなものを[br]開発できる段階には来ていて 0:32:34.650,0:32:37.464 関連性も分かっていて 0:32:37.864,0:32:42.738 別の言語へ[br]言葉を翻訳できる段階なので 0:32:42.738,0:32:47.747 開発につれ[br]より多くの言葉を表すにつれ 0:32:47.747,0:32:49.533 たくさんのことが可能になります 0:32:49.533,0:32:51.795 何が可能になるかというと 0:32:53.482,0:32:59.483 基調講演でベンが[br]翻訳についてお話したように 0:33:00.103,0:33:03.455 1つの言語から別の言語へ[br]翻訳できます 0:33:03.486,0:33:07.929 また同僚のイェンスが[br]いつも言うことには 0:33:07.929,0:33:11.452 欧州連合が[br]翻訳者を求めているそうで 0:33:11.452,0:33:17.439 マルタ語から[br]スウェーデン語へ翻訳できる― 0:33:17.439,0:33:19.436 - (聴衆8)エストニア語です[br]- 失礼 0:33:22.016,0:33:26.211 あまりない組み合わせですね 0:33:27.211,0:33:31.735 こうした言語がすべて[br]機械で読める1か所の場所にあれば 0:33:31.735,0:33:33.143 翻訳できるのです 0:33:33.143,0:33:36.857 エストニア語からマルタ語へ[br]またはその逆でも翻訳できる 0:33:36.857,0:33:41.735 辞書が手に入るのです 0:33:42.935,0:33:45.607 今までは 例えばコストの面から[br]作業を正当化できるほど 0:33:45.607,0:33:47.911 十分な需要がなかったため 0:33:47.911,0:33:51.050 これまで辞書でカバーされていなかった 0:33:51.050,0:33:55.540 言語の組み合わせがあったわけですが 0:33:55.540,0:33:57.147 それが今は行えます 0:33:59.797,0:34:02.318 それと テキスト生成です 0:34:02.318,0:34:04.259 ルーシーが先ほど 0:34:04.259,0:34:06.226 テキスト生成に関して 0:34:06.226,0:34:10.136 少数言語で[br]ウィキペディアの記事を開始するため 0:34:10.136,0:34:14.673 ハッティとどのように[br]取り組んでいるかをお話しました 0:34:15.423,0:34:19.512 それには 言葉に関するデータが必要で 0:34:19.512,0:34:22.589 そのためには その言語について[br]理解する必要があります 0:34:23.769,0:34:28.133 そうしたことが[br]今私に浮かんだアイデアです 0:34:28.693,0:34:31.254 その壮大なデータが得られた場合[br]何をしたいか 0:34:31.254,0:34:34.353 皆さんには もっとアイデアが[br]あるかもしれませんね 0:34:37.693,0:34:40.892 (聴衆9)語彙素のトピックから[br]外れますが 0:34:40.892,0:34:42.666 質問させてください 0:34:42.666,0:34:46.754 コミュニティーの一員として[br]仕事の優先順位に 0:34:46.754,0:34:50.135 私はどう影響を与えられるでしょうか 0:34:50.144,0:34:54.593 新規ユーザーが[br]秘密の合言葉なしに 0:34:54.593,0:35:01.135 編集したい言語を[br]示せるようにできるのでしょうか 0:35:02.145,0:35:04.264 ウィキペディアのトピックなしの 0:35:04.264,0:35:07.040 技術的要望リストがいつの日か[br]訪れるかも知れません 0:35:07.040,0:35:10.119 7年間放置されていたことが 0:35:10.119,0:35:14.218 全員一致の意見で直すことに[br]なるかも知れません 0:35:14.218,0:35:17.607 これについて[br]お考えやご意見は? 0:35:18.217,0:35:20.328 仰っているのは 0:35:20.328,0:35:23.518 ウィキデータに[br]ログインしていない人が 0:35:23.518,0:35:25.971 簡単に言語を変更できないという[br]問題ですか? 0:35:25.971,0:35:28.132 (聴衆9)いいえ[br]新規ユーザーです 0:35:28.132,0:35:30.689 新規ユーザーが[br]ログインしていれば 0:35:30.689,0:35:34.871 ページ上部で[br]言語を変更できますし 0:35:35.891,0:35:39.769 ラベルの説明が[br][聞き取り不能]場所に 0:35:39.769,0:35:42.013 それが表示され 0:35:42.013,0:35:43.483 編集できます 0:35:45.657,0:35:49.009 (聴衆9)大抵の[br]ワークフローでは 0:35:49.009,0:35:52.447 複数の言語を望めば[br]利用できますが 0:35:52.447,0:35:55.419 いつもそうとは限りません 0:35:55.419,0:35:58.584 この講演の後に[br]詳しく伺いましょう 0:36:01.562,0:36:04.089 いいですね[br]他にご質問は? 0:36:05.534,0:36:06.536 どうぞ 0:36:11.595,0:36:13.196 (聴衆10)良いプレゼンでした 0:36:14.257,0:36:18.091 ウィクショナリーのコミュニティーとの[br]相互関係の状態について 0:36:18.091,0:36:19.307 ご意見をください 0:36:19.307,0:36:20.956 私が見ている限り 0:36:20.956,0:36:26.051 作業の重要な要素のインポートについて[br]議論がありますが 0:36:26.051,0:36:30.843 ライセンスの問題や[br]異論などがあるようです 0:36:30.843,0:36:31.848 はい 0:36:31.848,0:36:34.520 ウィクショナリーのコミュニティーは 0:36:34.520,0:36:39.473 ウィクショナリー開発に[br]長い時間をかけてきています 0:36:39.533,0:36:42.774 彼らが開発してきた 0:36:42.774,0:36:47.554 驚くほど難しく複雑な[br]テンプレートは 0:36:47.554,0:36:53.614 きれいな表を作成して[br]フォームを自動生成してくれたり 0:36:53.614,0:37:00.136 いろいろと素晴らしく[br]並外れたことをしてくれます 0:37:02.311,0:37:07.994 もちろん 彼らは多くの時間と努力を[br]費やしてきています 0:37:09.364,0:37:11.801 当然のことながら 0:37:11.801,0:37:18.786 ただそんな具合に[br]誰かの手に渡したくはないのです 0:37:19.102,0:37:21.791 ライセンスの問題は[br]そこから生じているものもあります 0:37:22.761,0:37:25.137 それでいいのです 0:37:25.737,0:37:31.262 最初のウィクショナリーの[br]コミュニティーが調整を行い 0:37:31.262,0:37:34.329 ウィキデータへデータを[br]インポートする話をしています 0:37:34.329,0:37:39.095 ご覧になったロシア語は[br]その一例で 0:37:40.375,0:37:42.355 これは今後も起こると思います 0:37:43.635,0:37:46.800 時間のかかるプロセスです 0:37:46.800,0:37:49.753 ウィキペディアへ[br]ウィキデータのデータを採用するのと同様 0:37:49.753,0:37:51.909 時間がかかります 0:37:52.849,0:37:58.625 語彙素データを[br]利用しやすくする一方で 0:37:58.632,0:38:02.269 ウィクショナリーでも[br]それを活用し 0:38:02.269,0:38:05.531 語彙素とウィクショナリー間で[br]データを共有できるようにするのは 0:38:05.531,0:38:08.853 現状では困難です 0:38:08.853,0:38:11.560 ウィキペディアであったように[br]とんでもないことです 0:38:13.860,0:38:16.325 誕生日プレゼントを[br]お待ちください(笑) 0:38:20.038,0:38:21.182 どうぞ 0:38:22.599,0:38:25.950 (聴衆11)ばかげているので[br]言いたくなかったのですが 0:38:25.950,0:38:28.168 逆の見方をしていました 0:38:28.168,0:38:32.003 ウィクショナリーに[br]すでにコンテンツがあっても 0:38:32.003,0:38:34.248 ライセンスで違いがあるため 0:38:34.248,0:38:37.048 ウィキデータに転送できないと[br]分かっていますが 0:38:37.048,0:38:39.631 それに対処できるのではと[br]考えていました 0:38:40.321,0:38:45.913 例えば コミュニティーの許可を得た後に 0:38:45.913,0:38:51.205 公開投票などを行い 0:38:52.075,0:38:56.601 コミュニティーに対しては[br]アクティブなメンバーが投票し 0:38:56.601,0:39:02.523 コンテンツ転送の[br]承認や可否について発言し 0:39:02.523,0:39:05.528 それに対し ウィキデータの語彙素に[br]取り組めばいいと思います 0:39:06.238,0:39:08.537 もったいないからです 0:39:09.568,0:39:14.961 それはまさにウィクショナリーの[br]コミュニティーにいる人たちが 0:39:14.961,0:39:18.249 快く議題として取り上げるお話です 0:39:18.249,0:39:24.647 私たちがそこで押し付けるのは[br]厚かましいですが 0:39:25.917,0:39:31.142 話し合うのは[br]確かに価値があると思います 0:39:31.142,0:39:34.972 ですが 法的に許可されることと 0:39:34.972,0:39:39.082 私たちがすべきことと 0:39:39.082,0:39:43.147 人々が望むこと[br]望まないことの間には 0:39:43.147,0:39:45.426 相違があると[br]理解するのも重要です 0:39:45.736,0:39:47.329 ですから 法的に許可されても 0:39:47.329,0:39:50.640 ウィクショナリーの[br]コミュニティーが望まなければ 0:39:50.640,0:39:53.537 少なくとも[br]気を付けたほうがいいでしょう 0:39:58.886,0:40:02.249 マイクをお持ちください 0:40:04.540,0:40:07.299 (聴衆12)すべて素晴らしいお話でした 0:40:07.979,0:40:12.319 すぐに思ったことは[br]私の生徒にどうやって伝えようかとか 0:40:12.319,0:40:15.558 課程にどう組み込もうかとか 0:40:15.558,0:40:18.531 私たちの仕事や[br]教育の場面などでした 0:40:18.531,0:40:24.116 私には 現時点で[br]まず十分な知識がありません 0:40:24.116,0:40:27.278 ですが 今あるドキュメンテーションは 0:40:27.808,0:40:30.082 改善の余地があると思います 0:40:30.082,0:40:31.947 そこでリクエストしたいのは 0:40:31.947,0:40:35.898 仕組みを説明してくれる動画です 0:40:35.898,0:40:39.948 それがあれば 活用できます 0:40:39.948,0:40:41.985 生徒に参加してもらったり 0:40:41.985,0:40:47.072 どれだけ素晴らしいかを[br]人々に理解してもらえます 0:40:47.072,0:40:52.001 ぜひドキュメンテーションと[br]教育についてお考えください 0:40:52.001,0:40:54.480 多くの成果が得られるはずです 0:40:54.480,0:40:58.585 たくさんの仕事を… 0:41:00.125,0:41:02.033 小中学校とは言いませんが 0:41:02.033,0:41:05.495 若い生徒たちに行ってもらえます 0:41:05.915,0:41:10.866 その可能性を[br]取り入れていただければと思います 0:41:10.866,0:41:15.272 現時点で 私は十分に理解していないので 0:41:15.272,0:41:22.155 タスクの作成や実用的な仕事が[br]できるわけではありません 0:41:22.155,0:41:25.772 どんな支援や意見についても[br]ここのどなたかがお持ちであれば 0:41:25.772,0:41:29.648 ご自身のご意見も含め[br]お聞かせいただければ 0:41:30.508,0:41:32.129 ええ 後ほどお話しましょう 0:41:35.473,0:41:37.139 他にご質問は? 0:41:37.809,0:41:39.195 先ほど挙手がありましたが 0:41:39.195,0:41:40.495 どなたでしょう 0:41:45.739,0:41:49.996 (発言者13)ウィクショナリーから[br]インポートできないなら 0:41:49.996,0:41:55.730 他のパブリック ドメインのソースや[br]あらゆるデータを見つけるための 0:41:55.730,0:41:57.459 協調努力はありますか 0:41:58.769,0:42:03.167 それを事前にフィルタリングしたり[br]整理したりすれば 0:42:03.167,0:42:08.470 人々が確認して[br]インポートしやすくなります 0:42:09.093,0:42:11.181 努力はあります 0:42:11.181,0:42:14.769 私の知る限り[br]バスク語がその努力の1つですが 0:42:14.769,0:42:17.474 それについて[br]仰りたいことがあればどうぞ 0:42:18.416,0:42:20.120 (聴衆14)[聞き取り不能] 0:42:23.166,0:42:27.148 解決策は[br]それに対する支払いです... 0:42:28.374,0:42:33.381 私たちには通常 一緒に仕事をしている[br]委託業者との契約があり 0:42:34.801,0:42:38.094 彼らが辞書関連の仕事をしています 0:42:38.755,0:42:42.458 他の業務に加えて[br]辞書関連の仕事をしています 0:42:42.458,0:42:47.473 私たちは業者と生徒向けの無料の[br]辞書を開発する契約をしており 0:42:47.473,0:42:50.499 最も一般的な言葉を[キャスト]し 0:42:50.499,0:42:55.590 外部識別子やスキーマと共に[br]アップロードするものです 0:42:56.420,0:43:02.902 それをパブリック ドメイン(CC0)に[br]することには議論がありました 0:43:03.012,0:43:05.792 CCを伴う辞書を[br]所有しているからです 0:43:06.977,0:43:10.011 彼らは相違点を理解していました 0:43:10.326,0:43:13.746 ですから 議論はありましたが 0:43:13.746,0:43:19.709 将来 私たちがツールや事例を[br]提供できると思いますし 0:43:19.709,0:43:23.781 私たちが扱える[br]他の辞書も予定されています 0:43:24.016,0:43:29.274 ウィクショナリーもその方向に[br]進み始めたほうがいいと思いますが 0:43:29.274,0:43:32.260 それはまた[br]別の大きな議論が必要でしょう 0:43:33.285,0:43:34.487 それに加えて 0:43:34.487,0:43:38.839 オクシタン語の辞書に取り組む[br]オクシタン出身の人々と 0:43:38.839,0:43:41.827 リーアが連携して 0:43:41.827,0:43:45.138 現在 シュメール語の[br]コラボレーションに取り組んでいます 0:43:51.644,0:43:53.363 他にご質問は? 0:44:01.487,0:44:05.349 (聴衆15)オクシタン語のデータを[br]インポートしたいのですが 0:44:05.349,0:44:06.585 いいタイミングですね 0:44:06.585,0:44:08.368 (聴衆15)少し問題があり 0:44:09.188,0:44:14.215 多様な語彙素のすべてを表す[br]方法が分かりません 0:44:14.215,0:44:17.893 私たちには6つの方言があり 0:44:17.893,0:44:24.014 どの方言が使われているかを[br]語彙素に示したいのです 0:44:24.014,0:44:27.285 でも それを行うのに[br]適切なC0文がありません 0:44:27.285,0:44:31.585 セグメントが存在しない限り 0:44:31.635,0:44:34.465 [聞き取り不能]ができません 0:44:34.465,0:44:37.603 文へエキスポートできるようになった時に 0:44:37.603,0:44:42.076 再度行う必要が出てくるからです 0:44:42.076,0:44:47.801 たくさんの人が依頼する[br]文ではないので 複雑です 0:44:47.802,0:44:53.054 大抵は少数言語に[br]関係する文だからです 0:44:53.444,0:44:56.933 依頼するのが一人だけのこともあります 0:44:56.933,0:45:00.022 ですが バスク語の同僚たちにとっては 0:45:00.022,0:45:06.082 一人でも 何千もの他の人に[br]力を与えられるかもしれません 0:45:06.082,0:45:10.884 ですから 依頼が多くなくても 0:45:10.884,0:45:14.136 重要なのです 0:45:14.874,0:45:17.600 新しいプロパティの提案は[br]済んでいますか? 0:45:17.600,0:45:19.470 それとも提案に協力が必要ですか? 0:45:21.524,0:45:24.300 (聴衆15)4か月前にお願いしました 0:45:24.720,0:45:28.755 では誰かにそのプロパティの提案に[br]協力してもらいましょう 0:45:30.159,0:45:33.092 この部屋に 実現してくれる人が[br]十分いるはずです 0:45:33.240,0:45:35.922 (聴衆15)プロパティ提案[br][フランス語] 0:45:36.105,0:45:39.699 回答がなく方法が分かりません 0:45:39.699,0:45:42.953 私たちはウィキデータの[br]コミュニティーには属していませんから 0:45:44.694,0:45:48.817 ええ ですから[br]ここに協力できる人たちがいます 0:45:48.817,0:45:52.134 ご協力いただける方は[br]手を挙げてください 0:45:52.234,0:45:53.684 (聴衆14)私がやります 0:45:53.684,0:45:55.512 語形の異形だけでなく 0:45:55.512,0:46:02.359 座標や何らかのマッピングで[br]それを地理的にも扱えるのが 0:46:02.359,0:46:04.747 とても興味深いです 0:46:05.595,0:46:07.815 異なる発音があるということも 0:46:07.815,0:46:11.837 たくさんの言語に[br]当てはまることだと思います 0:46:12.607,0:46:16.262 実現に向けて取り組むべきです 0:46:16.262,0:46:18.865 プロパティを検索します 0:46:19.782,0:46:20.933 いいですね 0:46:20.933,0:46:24.446 あなたのプロパティ提案に[br]サポートがあるはずです 0:46:26.136,0:46:27.297 ありがとうございます 0:46:28.153,0:46:30.261 他にご質問は? 0:46:32.410,0:46:33.474 フィン 0:46:33.974,0:46:37.515 フィンは辞書学データを基に[br]開発している者の一人です 0:46:38.031,0:46:40.085 (フィン)ちょっとした質問ですが 0:46:40.405,0:46:44.226 異なる綴りについてです 0:46:44.896,0:46:48.002 作業が難しいようです 0:46:48.532,0:46:53.368 もちろん 同じ言葉に[br]複数の語形がある場合はありますが 0:46:56.327,0:46:58.448 どうやら… 0:46:59.558,0:47:03.535 そうでなければ[br]規定が難しく 0:47:04.771,0:47:09.578 単に小さな技術面での問題なのか[br]分かりませんが 0:47:09.731,0:47:11.252 後で一緒に話しましょう 0:47:11.642,0:47:15.230 例を見てみたいです 0:47:17.478,0:47:18.478 アザーフ 0:47:26.886,0:47:28.396 (アザーフ)ありがとう 0:47:29.386,0:47:33.685 私の母国語ヘブライ語から[br]具体例を挙げますと 0:47:34.205,0:47:38.845 ヘブライ語には[br]ほぼすべての言葉の表現に 0:47:38.845,0:47:42.786 2つ主な異形があります 0:47:42.786,0:47:49.864 伝統的な綴りでは[br]多くの母音が除外されるからです 0:47:50.934,0:47:55.049 ですから 聖書や詩の現代版では 0:47:55.207,0:47:56.991 付加記号が使われています 0:47:57.461,0:48:00.166 しかしながら[br]こうした付加記号は 0:48:00.166,0:48:04.074 現代の散文や新聞記事や[br]道路標識などでは 0:48:04.074,0:48:05.974 全く使われていません 0:48:05.974,0:48:11.209 ですから 平均的な[br]日常のカジュアルな使用では母音を加え 0:48:12.169,0:48:13.519 付加記号を使いません 0:48:13.519,0:48:15.310 より面倒なことになり 0:48:15.310,0:48:18.033 いろいろな規則があるものの[br]誰も理解していないからです 0:48:18.633,0:48:20.531 ですから 2つの異形があって 0:48:20.531,0:48:25.322 日常のカジュアルな散文で[br]使われるものと 0:48:25.322,0:48:30.307 常に伝統的な[br]記号が付加された文章で現れる 0:48:30.307,0:48:32.200 聖書や詩で使われるものです 0:48:32.200,0:48:33.772 語彙素が役立つには 0:48:33.772,0:48:37.428 ありとあらゆる言葉と[br]ありとあらゆる言葉の語形の 0:48:37.428,0:48:39.747 両方の異形を[br]認識する必要があります 0:48:40.677,0:48:43.391 これは公式の不変の異形に対する 0:48:43.391,0:48:46.340 とても包括的なユースケースです 0:48:46.340,0:48:48.942 方言ではなく[br]地域でもなく 0:48:49.332,0:48:53.627 2つの共存している[br]形態体系なのです 0:48:54.537,0:48:58.926 現在の語彙素でこれを表す方法を[br]私もよく分かっていません 0:48:58.926,0:49:02.720 マグナスの質問に一部[br]回答することになりますがー 0:49:02.720,0:49:05.668 公開されている最大のヘブライ語辞書から[br]準備できている部分を 0:49:05.668,0:49:08.102 私がアップロードできていない[br]理由の1つです 0:49:08.102,0:49:13.141 その辞書は私が7年間デジタル化しており 0:49:13.141,0:49:14.803 かなりの量が準備できていますが 0:49:14.803,0:49:16.549 現在語彙素に移していません 0:49:16.549,0:49:20.245 この問題の解決法が[br]よく分からないからです 0:49:20.245,0:49:23.387 では その問題を[br]ここで解決しましょう(笑) 0:49:24.503,0:49:26.021 可能なはずです 0:49:30.045,0:49:32.047 では 他に質問は? 0:49:37.173,0:49:39.735 なければ以上です[br]ありがとうございました 0:49:40.605,0:49:42.675 (拍手)