WEBVTT
00:00:00.491 --> 00:00:02.365
[ウィキデータと言語]
00:00:02.365 --> 00:00:05.946
[リディア・ピンチャー]
[ウィキデータと言語]
00:00:05.946 --> 00:00:07.294
ありがとうございます
00:00:07.362 --> 00:00:11.244
この会議で大きなテーマの1つは
言語です
00:00:14.220 --> 00:00:15.993
これからお伝えするのは
00:00:15.993 --> 00:00:18.499
言語に関する現状と
00:00:18.499 --> 00:00:21.977
将来の展望についての概要です
00:00:29.036 --> 00:00:30.222
ウィキデータの使命は
00:00:30.222 --> 00:00:33.519
もっと多くの人が豊富な知識を
利用できるようにすることです
00:00:33.519 --> 00:00:37.298
言語はそれを実現するのに
極めて重要です
00:00:38.205 --> 00:00:43.291
特に 私たちの生活はますます
テクノロジーに依存しているため
00:00:44.114 --> 00:00:48.873
今日の基調講演で
講演者が話していたように
00:00:49.723 --> 00:00:51.588
ある言語を話せないことにより
00:00:51.588 --> 00:00:55.020
テクノロジーが
人を置き去りにする場合があります
00:00:55.320 --> 00:00:57.255
それは良いとは言えません
00:00:58.633 --> 00:01:02.097
何とかしたいと思っています
00:01:02.927 --> 00:01:05.841
改善のためには
少なくとも 次の2つが必要です
00:01:06.411 --> 00:01:11.124
1つは 皆さんのの言語で
コンテンツを提供することです
00:01:11.270 --> 00:01:13.985
2つ目は アプリケーションなど
何においても
00:01:13.985 --> 00:01:19.189
皆さんの言語で
やりとりすることです
00:01:20.367 --> 00:01:24.888
ウィキデータは
この2つの点に役立ちます
00:01:25.277 --> 00:01:28.408
まず 皆さんの言語での
コンテンツですが
00:01:28.408 --> 00:01:31.239
これは基本的に
項目とプロパティにある内容で
00:01:31.319 --> 00:01:33.082
私たちが世界を表す方法です
00:01:33.082 --> 00:01:35.085
必要なものは
これだけではないですが
00:01:35.085 --> 00:01:39.294
これにより
改善が進むはずです
00:01:39.764 --> 00:01:41.847
もう1つは
皆さんの言語によるやりとりです
00:01:41.847 --> 00:01:46.389
ここが語彙素の出番です
00:01:46.389 --> 00:01:49.382
携帯端末の
音声アシスト機能を利用する場合や
00:01:49.382 --> 00:01:54.918
デバイスに文章を翻訳させたい場合
などに活躍します
00:01:56.404 --> 00:01:59.254
では 皆さんの言語でのコンテンツを
見ていきましょう
00:01:59.254 --> 00:02:03.396
これは items(項目)と
properties(プロパティ)の内容です
00:02:05.406 --> 00:02:09.696
コンテンツには
項目とプロパティにあるラベルが重要です
00:02:10.236 --> 00:02:14.866
話題のエンティティが
何と呼ばれるか知る必要があります
00:02:15.656 --> 00:02:19.987
「Q5」が話題である場合
00:02:19.987 --> 00:02:22.180
それは英語話者にとっては
「human」であり
00:02:22.180 --> 00:02:24.706
ドイツ語話者とっては
「mensch」である
00:02:24.706 --> 00:02:26.374
というようなものです
00:02:26.374 --> 00:02:29.742
項目とプロパティに付いた
こうしたラベルは
00:02:29.742 --> 00:02:33.619
人間と機械 そして人間と人間の
00:02:33.619 --> 00:02:35.439
ギャップを埋めてくれます
00:02:35.439 --> 00:02:40.115
それにより 既存の知識が 皆にとって
さらに利用しやすくなっています
00:02:43.270 --> 00:02:46.290
これには期待が持てますね
[範囲の状況は?]
00:02:46.290 --> 00:02:48.342
実際の状況はどうでしょうか
00:02:48.342 --> 00:02:49.607
このようになっています
00:02:50.947 --> 00:02:52.416
ここで分かることは
00:02:52.416 --> 00:02:56.338
ウィキデータにある
項目の大半には
00:02:56.338 --> 00:03:00.767
2つの言語で
ラベルがあるということです
00:03:01.697 --> 00:03:03.851
それに次いで
1つ、3つの言語
00:03:03.851 --> 00:03:06.115
その後は悲しい状態です
00:03:06.781 --> 00:03:08.581
(静かな笑い)
00:03:10.047 --> 00:03:12.713
これを改善しましょう
00:03:14.185 --> 00:03:15.319
でも一方では
00:03:15.319 --> 00:03:17.478
もっと悪い状況を想像していました
00:03:17.478 --> 00:03:19.560
平均は1言語だと思っていましたから
00:03:19.560 --> 00:03:22.503
2言語だと分かって満足です(笑)
00:03:24.921 --> 00:03:26.186
では次
00:03:27.156 --> 00:03:33.700
興味深いのは 項目とプロパティにある
ラベルの数だけでなく
00:03:33.742 --> 00:03:36.565
どの言語か知ることも
興味深いものです
00:03:38.045 --> 00:03:41.363
ここに示されているグラフは
00:03:42.748 --> 00:03:46.767
Items(項目)にラベルがある言語です
00:03:46.838 --> 00:03:50.669
大きく占めているのは
Otherです
00:03:51.229 --> 00:03:53.863
グラフが読めるよう
00:03:54.533 --> 00:03:58.902
上位100の言語を抽出したので
その他がOtherになっています
00:03:59.542 --> 00:04:02.142
英語、オランダ語
00:04:03.002 --> 00:04:04.254
フランス語
00:04:05.924 --> 00:04:08.924
そして特に アストゥリアス語
00:04:09.659 --> 00:04:11.749
- (聴衆1)やった!
- 嬉しいですね!
00:04:13.899 --> 00:04:16.954
不均衡になっていることが
ここで分かりです
00:04:16.954 --> 00:04:20.114
英語が多くの比率を占めています
00:04:21.236 --> 00:04:24.367
同様にProperties(プロパティ)の
グラフを見ると
00:04:24.367 --> 00:04:25.999
こちらのほうが
均衡が取れています
00:04:27.399 --> 00:04:32.750
これはプロパティがはるかに
少ないことにもよるのでしょう
00:04:32.750 --> 00:04:36.770
ですから比較的小さなコミュニティーでも
引けをとりません
00:04:36.770 --> 00:04:39.042
皆さんの言語に
ローカライズすることは
00:04:39.042 --> 00:04:41.159
ウィキデータの
重要な部分でもありますから
00:04:41.159 --> 00:04:42.384
これは良いことです
00:04:45.752 --> 00:04:48.860
ここで強調したいことは
アストゥリアス語で
00:04:49.564 --> 00:04:51.740
小さなコミュニティーでも
00:04:51.740 --> 00:04:57.085
熱意と仕事で
大きな変化をもたらせるということです
00:04:57.085 --> 00:04:58.420
素晴らしいことです
00:05:01.846 --> 00:05:03.184
皆さんに質問です
00:05:03.530 --> 00:05:07.240
ウィキデータで外部識別子を除く
すべてのプロパティのうち
00:05:07.687 --> 00:05:10.458
どれに多くのラベルが
つまり多くの言語があるでしょうか
00:05:10.977 --> 00:05:13.847
(聴衆)[聞き取り不能]
00:05:13.847 --> 00:05:16.786
instance of
という声があがりましたね
00:05:17.506 --> 00:05:19.443
違います
00:05:19.983 --> 00:05:22.210
正解はimageです(笑)
00:05:23.230 --> 00:05:28.516
あなたが instance ofに
まだラベルがない言語を話すなら
00:05:28.621 --> 00:05:30.190
追加してください
00:05:31.972 --> 00:05:35.676
現在 ラベルの数は148です
00:05:37.653 --> 00:05:40.953
別のスライドです
00:05:42.631 --> 00:05:44.042
このグラフは
00:05:44.042 --> 00:05:49.321
どれだけのコンテンツが
ある言語で利用できるようになっているか
00:05:49.321 --> 00:05:52.042
またどれだけそのコンテンツが
利用されたかを示しています
00:05:52.042 --> 00:05:55.448
これは曲線ですよね
00:05:55.448 --> 00:06:00.987
大半のコンテンツに
英語のラベルがあり 英語で利用でき
00:06:01.507 --> 00:06:03.735
たくさん利用されています
00:06:04.295 --> 00:06:06.449
そして値は下がっていきます
00:06:06.449 --> 00:06:09.436
ですが 外れ値もあり
00:06:09.436 --> 00:06:15.333
必然的に予想されるよりも
たくさんのコンテンツがあります
00:06:16.903 --> 00:06:19.539
これはとても良いことです
00:06:20.839 --> 00:06:24.945
課題はそれほど利用されていないことです
00:06:25.565 --> 00:06:28.522
アストゥリアス語やオランダ語は
もっと利用度が高いはずです
00:06:28.742 --> 00:06:32.451
コミュニティーに協力することにより
00:06:33.266 --> 00:06:37.606
収集データの利用度が向上するのは
良いことだと思います
00:06:42.910 --> 00:06:47.067
こちらと先ほどの分析は
良い結果を示しています
00:06:47.137 --> 00:06:51.378
ですが 利用度が高い項目に
00:06:51.378 --> 00:06:55.295
より多くのラベルがある
傾向があります
00:06:55.295 --> 00:06:57.964
または多くのラベルがあると
利用度が高いのでしょうか
00:07:02.513 --> 00:07:04.376
そこで疑問は
00:07:04.806 --> 00:07:07.009
私たちは強力な言語のみを
サポートしているのか
00:07:07.899 --> 00:07:11.237
または あらゆる言語を
サポートしているのかです
00:07:12.757 --> 00:07:17.429
こちらは言語の分類です
00:07:17.743 --> 00:07:21.832
同じ分類の言語には
同じラベルがある傾向があります
00:07:26.042 --> 00:07:28.338
クラスタする傾向が見られます
00:07:28.599 --> 00:07:32.238
こちらは同様のクラスタ分析ですが
00:07:33.018 --> 00:07:39.231
言語の健在度、利用度、
危険度に基づいて
00:07:40.256 --> 00:07:42.778
色分けされています
00:07:43.156 --> 00:07:44.642
良い結果として
00:07:44.642 --> 00:07:49.566
安全言語と危機言語とで
00:07:49.566 --> 00:07:53.773
異なるクラスタを
形成していないことです
00:07:53.773 --> 00:07:58.872
すべて混じり合っています
00:08:00.262 --> 00:08:04.625
この逆の結果よりも
ずっと良いことですよね
00:08:04.625 --> 00:08:09.377
安全言語
強力な言語の間だけで
00:08:10.197 --> 00:08:13.939
助け合っている
ということではありませんから
00:08:14.356 --> 00:08:17.417
これはとても良いことです
00:08:17.417 --> 00:08:19.871
これを見た時
良いことだと思いました
00:08:23.474 --> 00:08:27.769
これも同様の分析データで
00:08:30.230 --> 00:08:35.787
言語状況と
言語が所有するラベル数です
00:08:39.257 --> 00:08:42.937
安全言語(分類1)は
明らかに勝っており
00:08:42.937 --> 00:08:44.248
予想どおりです
00:08:45.508 --> 00:08:47.233
ですが
00:08:49.063 --> 00:08:54.127
分類2(不安定)、3(危機)
4(極めて危険)に分類される言語でさえ
00:08:54.407 --> 00:08:59.280
ウィキデータとその他における
表出に関して
00:08:59.280 --> 00:09:02.367
それほど悪くはありません
00:09:03.287 --> 00:09:05.777
それが分かって良かった点です
00:09:07.646 --> 00:09:09.136
同様に
00:09:09.136 --> 00:09:11.111
例えばウィキペディアでの
00:09:11.111 --> 00:09:15.275
こうしたラベルのコンテンツの
利用度を見ると
00:09:17.455 --> 00:09:22.563
ここでも同様の結果が分かります
00:09:23.603 --> 00:09:26.676
つまり こうしたコミュニティーは
00:09:26.676 --> 00:09:30.753
例えば 利用度の高い項目に
ラベルを入力することにより
00:09:30.753 --> 00:09:34.504
その時間を
有益に活用しているのです
00:09:36.410 --> 00:09:37.763
外れ値については
00:09:37.763 --> 00:09:44.510
コミュニティーが
その仕事が最も役立つ場を見つけられるよう
00:09:44.510 --> 00:09:48.202
私たちが協力できるところだと思います
00:09:49.312 --> 00:09:52.663
総合的には
この分析結果に満足しています
00:09:54.823 --> 00:09:59.844
ウィキデータの項目とプロパティを
ご説明しました
00:10:00.714 --> 00:10:03.033
次に皆さんの言語でのやりとりを
見ていきましょう
00:10:03.033 --> 00:10:05.203
ウィキデータの語彙素です
00:10:05.203 --> 00:10:09.394
ここで語彙、語形、語義を表します
00:10:10.167 --> 00:10:13.008
去年の5月からこれを行っていて
00:10:16.461 --> 00:10:18.782
コンテンツは増加してきています
00:10:20.114 --> 00:10:22.279
こちらの青が語彙素で
00:10:22.279 --> 00:10:25.938
赤が語彙素における語形
00:10:25.938 --> 00:10:29.910
黄色が語彙素における
語義を示しています
00:10:30.991 --> 00:10:34.451
後でも取り上げますが
コミュニティーの一部は
00:10:34.451 --> 00:10:39.793
語彙素の語形や語義の作成に
たくさんの時間を費やしています
00:10:39.793 --> 00:10:42.753
これは有益です
00:10:42.753 --> 00:10:47.765
皆さんが必要なデータセットの中核が
構築されるからです
00:10:50.562 --> 00:10:57.466
次に ウィキデータに語彙素がある
すべての言語を見てみました
00:10:57.906 --> 00:11:01.003
つまりウィキデータにある
言語の数です
00:11:01.713 --> 00:11:04.404
現在 言語の数は310です
00:11:04.884 --> 00:11:08.290
では ウィキデータの
現在の語彙素数に関しては
00:11:08.290 --> 00:11:11.949
何語が第1位だと思いますか
00:11:12.933 --> 00:11:15.042
(聴衆)ロシア語
[聞き取り不能]
00:11:19.183 --> 00:11:20.216
何ですって?
00:11:20.216 --> 00:11:21.741
(聴衆2)ドイツ語
00:11:21.741 --> 00:11:23.642
先ほど聞こえてきたように
00:11:24.252 --> 00:11:25.315
ロシア語です
00:11:28.011 --> 00:11:29.754
ロシア語が抜きん出ています
00:11:31.897 --> 00:11:33.710
相対感が分かるように
ご説明しますと
00:11:35.652 --> 00:11:37.856
異なる意見はありますが
00:11:38.026 --> 00:11:44.672
例えば 別の言語で
千から3千語で会話レベル
00:11:44.672 --> 00:11:49.461
4千から1万語で
上級レベルに達するそうです
00:11:51.591 --> 00:11:55.282
ですからまだ
そこまでのレベルには達していません
00:11:58.483 --> 00:12:02.779
1つ注目していただきたいのは
ここのバスク語で
00:12:03.279 --> 00:12:07.744
約1万の語彙素があります
00:12:09.244 --> 00:12:13.003
次に こうした語彙素に対する
語形の数を見てみると
00:12:14.163 --> 00:12:16.497
バスク語が
かなり上位にあります
00:12:18.257 --> 00:12:20.006
これはすごいですよね
00:12:20.006 --> 00:12:24.930
この理由を説明する講演にも
ぜひご参加ください
00:12:27.121 --> 00:12:30.779
次に 言葉の意味に当たる
語義の数を見てみると
00:12:32.015 --> 00:12:34.624
バスク語がなんとリストの第1位です
00:12:34.961 --> 00:12:36.781
これは拍手に値すると思います
00:12:37.102 --> 00:12:38.921
(拍手)
00:12:45.678 --> 00:12:46.899
皆さんに別の質問です
00:12:47.118 --> 00:12:50.181
現在 最も翻訳されている
語彙素は何でしょうか
00:12:50.651 --> 00:12:55.414
(聴衆)ネコ
ダグラス・アダムス[聞き取り不能]
00:12:56.766 --> 00:13:00.014
すべて良い推測ですが 違います
00:13:01.012 --> 00:13:04.137
これです
ロシア語の「水」です
00:13:09.571 --> 00:13:16.253
ウィキデータにある語彙素や語形や語義の
数についてはお話しましたが
00:13:16.412 --> 00:13:21.501
それは必要なことの1つで
他に必要なのは
00:13:21.515 --> 00:13:24.985
こうした語彙素や語形や意味を
00:13:24.985 --> 00:13:27.090
機械に読める方法で
表現することです
00:13:27.647 --> 00:13:30.039
それには 文が必要で
項目はその一例です
00:13:31.479 --> 00:13:36.362
使用するプロパティの1つは
文例です
00:13:36.362 --> 00:13:38.582
これで データを使用している誰もが
00:13:38.582 --> 00:13:42.037
文脈に応じて
その言葉の使い方を理解できます
00:13:42.037 --> 00:13:44.158
例えば 引用などが考えらます
00:13:45.396 --> 00:13:47.113
ここではポーランド語が第1位です
00:13:47.900 --> 00:13:49.814
ポーランド語話者の方々
頑張りましたね
00:13:54.219 --> 00:13:57.680
もう1つ役立つプロパティは
IPA(発音記号)です
00:13:57.680 --> 00:13:59.967
語彙の発音の仕方です
00:14:00.876 --> 00:14:07.497
ロシア語は IPA文を
たくさん必要としていますね
00:14:10.419 --> 00:14:13.314
ですがここでも
ポーランド語が第2位です
00:14:17.148 --> 00:14:20.753
ウィキデータには
音声データもあります
00:14:20.758 --> 00:14:25.583
発せられた言葉を収めた
ファイルへのリンクがコモンズにあるので
00:14:25.959 --> 00:14:28.630
発音記号を読めない場合などに
00:14:28.630 --> 00:14:32.871
ネイティブ スピーカーの
発音を聞くことができます
00:14:34.959 --> 00:14:36.765
またウィキベースを動力とする
00:14:36.765 --> 00:14:40.474
Lingua Libreという
プロジェクトがあります
00:14:40.884 --> 00:14:45.173
ご自分の言語での
言葉の録音に協力して
00:14:45.173 --> 00:14:47.836
ウィキデータの語彙素へ追加すると
00:14:48.446 --> 00:14:52.103
他の人がその言葉の
発音の仕方を理解できます
00:14:53.663 --> 00:14:55.694
(聴衆2)[聞き取り不能]
00:14:55.694 --> 00:14:57.703
「Lingua Libre」と検索すると
00:14:57.703 --> 00:15:00.981
テレグラムに
誰かがそれを投稿してくれるはずです
00:15:03.138 --> 00:15:04.621
彼らは素晴らしく
00:15:04.621 --> 00:15:06.726
ウィキベースで
優れた仕事をしています
00:15:12.706 --> 00:15:17.285
次に知りたいのは
将来の展望です
00:15:19.165 --> 00:15:22.010
お見せしたデータに基づくと
00:15:23.030 --> 00:15:25.172
ウィキデータの言語を見ると
00:15:25.172 --> 00:15:28.430
もっと多くの人に 豊富な知識への
アクセスを提供しようと
00:15:28.430 --> 00:15:31.240
長い道のりをここまで来ました
00:15:32.530 --> 00:15:36.392
ですが この先にも
たくさんの仕事が控えています
00:15:38.992 --> 00:15:42.341
例えば 皆さんが協力できることとして
00:15:42.341 --> 00:15:46.255
マラソンのように
皆で集まって一斉に
00:15:46.255 --> 00:15:50.124
ウィキデータで
項目にラベル付けをするとか
00:15:50.914 --> 00:15:55.121
皆さんの言語の
語彙素を編集して
00:15:55.121 --> 00:15:59.212
最も利用されている言葉を皆さんの言語で
ウィキデータに収めるようなことです
00:16:00.773 --> 00:16:03.285
またはTerminatorのような
ツールを使用して
00:16:03.285 --> 00:16:08.120
皆さんの言語で
まだラベルが付いていない
00:16:08.120 --> 00:16:11.529
最重要項目を
見つけてもいいでしょう
00:16:13.274 --> 00:16:16.666
重要度を測るには
00:16:16.666 --> 00:16:20.940
文中のリンクのような
他のウィキデータの項目における
00:16:20.940 --> 00:16:22.349
利用頻度によります
00:16:25.768 --> 00:16:30.022
もちろん 語彙素に関しては
00:16:31.342 --> 00:16:35.169
現在 基本的な語彙素は
カバーしていますので
00:16:35.169 --> 00:16:41.132
今後 大事なのは
開発とさらなる文の追加です
00:16:41.132 --> 00:16:44.467
しっかりとした基礎を築いて
00:16:44.467 --> 00:16:47.421
その上に有意義な
アプリケーションを開発することです
00:16:48.141 --> 00:16:50.768
その臨界点には近付いてはいても
00:16:50.768 --> 00:16:56.410
基礎の上に本格的なアプリケーションを
開発できる所までは到達していないからです
00:16:58.277 --> 00:17:01.520
皆さんにその仕事に
ご参加いただければと思います
00:17:02.583 --> 00:17:09.405
ここでちょっと
友人から協力してもらいましょう
00:17:09.843 --> 00:17:12.493
ブリューノ
こちらへご登壇を
00:17:13.882 --> 00:17:16.744
Lexicon Mask
(辞書マスク)のお話をどうぞ
00:17:16.881 --> 00:17:19.036
(ブリューノ)ありがとう リディア
00:17:19.036 --> 00:17:22.519
Googleでの仕事をお伝えする
時間をいただきまして
00:17:22.519 --> 00:17:24.150
ありがとうございます
00:17:24.150 --> 00:17:29.275
デニーのことは
ご存知の方も多いでしょう
00:17:30.126 --> 00:17:32.030
Googleで
私は言語学者ですから
00:17:32.030 --> 00:17:36.150
言語に熱意のある方々に囲まれ
うれしく思います
00:17:36.620 --> 00:17:39.278
私たちは
辞書を開発しています
00:17:39.278 --> 00:17:45.346
また皆さんに役立つテクノロジーや
アプローチを開発しています
00:17:46.369 --> 00:17:48.455
背景を少々お伝えしますと
00:17:48.455 --> 00:17:51.907
これがここでお話している
辞書編集の背景です
00:17:52.788 --> 00:17:54.977
辞書データベースを開発した際に
00:17:54.977 --> 00:17:56.662
恐らくご存知のように
00:17:56.662 --> 00:18:01.775
データの維持や一貫性の保持や交換に
悪銭苦闘しました
00:18:02.074 --> 00:18:05.959
語彙素や語形を表している
00:18:05.959 --> 00:18:09.184
特性やプロパティをまとめようと
何度も試み
00:18:09.184 --> 00:18:10.936
完全には解決していませんが
00:18:10.936 --> 00:18:13.592
その面でいくらか統一されています
00:18:13.742 --> 00:18:15.269
ですが不足していたのは―
00:18:15.269 --> 00:18:18.732
これはGoogleでのプロジェクト
開始時から抱えていた課題ですが
00:18:18.732 --> 00:18:21.517
内部構造を持つ努力でした
00:18:22.197 --> 00:18:25.910
しかるべき語彙記載項や
00:18:25.910 --> 00:18:28.581
データの種類や
所有情報の種類や
00:18:28.581 --> 00:18:32.237
予期される規定などを
表す内部構造です
00:18:32.237 --> 00:18:38.187
そこで Lexicon Mask
というものを考案しました
00:18:38.897 --> 00:18:44.841
Lexicon Maskが表すのは
エントリに予期される内容で
00:18:44.841 --> 00:18:47.329
完了予定の
辞書編集エントリです
00:18:47.329 --> 00:18:51.436
これには
語彙に予期される語形の数と
00:18:51.436 --> 00:18:55.607
各語形に予期される特性の数の
双方が含まれます
00:18:56.397 --> 00:18:58.329
これはイタリア語の形容詞の例です
00:18:58.329 --> 00:19:02.002
イタリア語では 形容詞に対して
4つの語形が予期されます
00:19:02.002 --> 00:19:04.493
性や数の特性に関して
00:19:04.493 --> 00:19:07.946
各語形に特別な組み合わせがあります
00:19:08.606 --> 00:19:12.672
これがイタリア語の形容詞に
予期されることです
00:19:12.672 --> 00:19:16.176
もちろん 極めて複雑な
マスクになる可能性もあります
00:19:16.176 --> 00:19:20.783
例えば フランス語の動詞活用は
かなり広範囲です
00:19:20.783 --> 00:19:23.487
ロシアのマスクは
画面に収まらないので
00:19:23.487 --> 00:19:25.378
今は表示されていません
00:19:26.308 --> 00:19:29.531
詳細規定もあります
00:19:29.531 --> 00:19:33.421
語形レベルで識別するからです
00:19:33.421 --> 00:19:35.036
これはロシア語の名詞で
00:19:35.036 --> 00:19:40.048
異なる語形での
事例数が3つありますが
00:19:40.048 --> 00:19:43.086
エントリレベルの規定もあって
00:19:43.086 --> 00:19:45.590
特に名詞に
00:19:45.590 --> 00:19:50.133
固有の性と
固有の有生性の特性があり
00:19:50.133 --> 00:19:52.488
これもマスクの中で規定されています
00:19:54.518 --> 00:20:00.099
また マスクが一般的に
しかるべきエントリに与える規定を
00:20:00.099 --> 00:20:01.874
識別することが必要ですが
00:20:01.874 --> 00:20:07.158
言語に発生する
語形や語彙の欠如のため
00:20:07.158 --> 00:20:11.282
より小さなマスクになる
可能性もあります
00:20:11.282 --> 00:20:14.537
これがフランス語の動詞の
最もシンプルなバージョンで
00:20:14.537 --> 00:20:18.535
例えば「雨が降る」
「雪が降る」のような
00:20:18.535 --> 00:20:23.969
天候に関する動詞すべてに
三人称単数があるだけです
00:20:24.537 --> 00:20:26.743
ですからこれら2つのレベルを識別します
00:20:26.923 --> 00:20:29.962
Googleでこれを使用する方法は
00:20:29.962 --> 00:20:32.643
使いたい辞書がある場合
00:20:33.063 --> 00:20:38.309
文字通りマスクを
辞書に投げて
00:20:38.309 --> 00:20:40.163
すべてのエントリを
マスクを通して
00:20:40.163 --> 00:20:44.303
どのエントリに
構造的問題があるか
00:20:44.303 --> 00:20:46.523
語形や特性が
不足しているのかを見ます
00:20:46.523 --> 00:20:51.497
問題があれば
人が検証を行うか
00:20:51.497 --> 00:20:53.751
マスクを通過するかを見ます
00:20:53.751 --> 00:20:57.924
ですから 構造の品質管理には
非常に有益なツールです
00:20:59.427 --> 00:21:01.964
今日発表いたしますのは
00:21:01.964 --> 00:21:05.408
私たちのマスクの
オープンソース化です
00:21:05.948 --> 00:21:07.573
これがスキーマです
00:21:07.573 --> 00:21:09.477
ご希望があれば
公開して
00:21:09.477 --> 00:21:13.483
ShExファイルとして
ウィキデータに提供します
00:21:13.483 --> 00:21:16.688
これがドイツ語名詞に対する
ShExファイルです
00:21:16.688 --> 00:21:21.058
内部仕様からオープンソース仕様への
コンバージョンに
00:21:21.058 --> 00:21:23.350
デニーが取り組んでいます
00:21:23.666 --> 00:21:27.265
現在 25言語超をカバーしています
00:21:27.265 --> 00:21:30.199
ウィキデータの発展を
期待しているだけでなく
00:21:30.199 --> 00:21:34.350
他の言語に対する
協働の機会を求めてもいます
00:21:34.350 --> 00:21:40.728
ダニーがルーカスと進行中の
コラボレーションの1つは
00:21:40.728 --> 00:21:45.052
ルーカスが持つ優れたツールで
00:21:45.052 --> 00:21:51.061
UIのヘルプで ユーザーや貢献者に
語形を追加してもらうものです
00:21:51.061 --> 00:21:54.151
フランス語で
形容詞を追加したい場合
00:21:54.151 --> 00:21:59.057
UIが予期される語形の数と
00:21:59.057 --> 00:22:01.562
語形がどんな特性を持つはずかを
教えてくれます
00:22:01.562 --> 00:22:06.268
ですから私たちのマスクが
定義と拡張に役立ちます
00:22:07.238 --> 00:22:08.385
以上です
00:22:08.731 --> 00:22:10.298
(リディア)ありがとう
00:22:10.358 --> 00:22:11.993
(拍手)
00:22:14.249 --> 00:22:16.761
ご質問はありますか?
00:22:16.891 --> 00:22:19.381
語彙素について
詳しく知りたいですか
00:22:19.817 --> 00:22:22.505
- (聴衆3)知りたいです
- 分かりました(笑)
00:22:33.485 --> 00:22:34.750
(聴衆3)私の質問は
00:22:34.750 --> 00:22:39.106
もっと多くの言語で もっと多くの人に
利用できるようにすると仰いましたが
00:22:39.106 --> 00:22:42.444
ウィキデータで使用できない言語は
たくさんあります
00:22:42.444 --> 00:22:44.246
ウィキデータとしての解決策は?
00:22:45.889 --> 00:22:47.686
ウィキデータで
使用できないというのは
00:22:47.686 --> 00:22:50.308
ラベルの記載のお話ですか?
00:22:50.308 --> 00:22:52.578
- (聴衆3)ラベルや説明です
- ええ
00:22:52.578 --> 00:22:55.498
語彙素に対しては
少し異なります
00:22:55.498 --> 00:22:57.793
語彙素には
その制限がないからです
00:22:58.923 --> 00:23:05.003
項目やプロパティのラベルには
いくらか制限があります
00:23:05.433 --> 00:23:08.496
ウィキデータでは
00:23:08.496 --> 00:23:14.229
誰もがすべてを行えるようには
していないからです
00:23:14.229 --> 00:23:17.769
そうすると
管理が難しくなってしまいます
00:23:19.349 --> 00:23:23.328
1つの言語に取り組みたい
小さなコミュニティーであっても
00:23:23.898 --> 00:23:26.693
ご要望いただければ
実現させます
00:23:26.693 --> 00:23:29.292
(聴衆3)5月にプラハの
ハッカソンで要望しましたが
00:23:29.292 --> 00:23:32.459
私たちの言語を使えるようになるには
8月にまでかかりました
00:23:32.459 --> 00:23:35.135
- ええ
- (聴衆3)遅いのです
00:23:35.135 --> 00:23:37.274
あいにく時間がかかります
00:23:37.854 --> 00:23:39.883
現在 言語委員会と
00:23:39.883 --> 00:23:46.048
基本部分の解決に取り組んでいます
00:23:49.537 --> 00:23:55.447
どの言語が実際「許可」されるか
について同意を得るのは
00:23:56.047 --> 00:23:59.398
非常に時間がかかっています
00:23:59.988 --> 00:24:04.178
これがご要望に対して
必要以上に時間がかかった理由です
00:24:04.778 --> 00:24:05.963
(聴衆3)ありがとう
00:24:06.815 --> 00:24:07.950
(聴衆4)ありがとう
00:24:07.950 --> 00:24:10.938
リディア
見せていただいた統計に
00:24:10.938 --> 00:24:12.886
言語ごとの語彙素の数がありましたが
00:24:12.886 --> 00:24:17.599
データポイントとして
すべての語形を合計したんでしょうか
00:24:17.599 --> 00:24:20.034
それとも語彙素だけですか
00:24:21.289 --> 00:24:22.941
(リディア)これですか
00:24:22.941 --> 00:24:24.053
どれですか
00:24:24.053 --> 00:24:25.529
(聴衆4)それです
00:24:25.797 --> 00:24:28.341
この数は[聞き取り不能]
00:24:28.341 --> 00:24:31.954
すべての語彙素に対するすべての語形ですか
存在する語彙素の数ですか
00:24:31.954 --> 00:24:35.395
- これは単に語彙素数の数です
- (聴衆4)そうですか
00:24:35.395 --> 00:24:36.797
では単なる統計値ですね
00:24:36.797 --> 00:24:39.390
もし語形から成るものだったら...
00:24:39.390 --> 00:24:40.614
それが質問の理由です
00:24:40.614 --> 00:24:42.817
屈折形態を伴うすべての言語―
00:24:42.817 --> 00:24:45.117
例えばロシア語やセルビア語
スロベニア語などには
00:24:45.117 --> 00:24:47.616
語形が数多くあることになるので
元から有利です
00:24:47.616 --> 00:24:51.990
それがここの語形数に
影響しています
00:24:51.990 --> 00:24:53.851
(聴衆4)分かりました
ありがとう
00:24:56.546 --> 00:25:00.224
(聴衆5)簡単な質問ですが
00:25:00.644 --> 00:25:06.824
実際の項目とプロパティに関し
00:25:07.124 --> 00:25:08.901
私が理解している限りでは
00:25:08.901 --> 00:25:11.948
与えられた
どのラベルや説明にも
00:25:11.955 --> 00:25:15.794
現在 実際のソースを
提供する方法はないんですよね
00:25:15.807 --> 00:25:20.920
例えば 項目のプロパティの場合
00:25:20.920 --> 00:25:24.509
相反するラベルが得られるかもしれない
00:25:24.509 --> 00:25:25.739
そうです
00:25:28.402 --> 00:25:30.781
先ほど 固有性というお話がありましたが
00:25:30.781 --> 00:25:35.965
例えば 芸術家が あるソースによれば
ノルウェー人であり
00:25:35.965 --> 00:25:38.750
別のソースによれば
サーミ人であるとか
00:25:39.550 --> 00:25:41.741
エストニア人であったりします
00:25:42.593 --> 00:25:49.259
公式の辞書の中でその言葉を
公式の用語に変える必要がありましたが
00:25:49.482 --> 00:25:52.262
理由を示す方法がありません
00:25:52.262 --> 00:25:53.596
このソースは何だったかとか
00:25:53.596 --> 00:25:55.561
変更理由とか
以前の内容などを示せません
00:25:55.561 --> 00:25:59.615
誰かが理由もなく
変更したように見えてしまいます
00:25:59.615 --> 00:26:03.350
言語データに対して
適切なソースを持てるように
00:26:03.350 --> 00:26:06.355
これを変更する計画はありますか?
00:26:07.045 --> 00:26:11.468
それは部分的に可能です
00:26:11.568 --> 00:26:15.958
例えば 人物に対する項目があって
00:26:16.968 --> 00:26:22.720
その人物に関する
文や氏名などが続きます
00:26:22.720 --> 00:26:26.226
そこで出典を付けることができます
00:26:28.211 --> 00:26:32.264
ラベルや説明の出典を
00:26:32.264 --> 00:26:35.557
今より複雑にするのは避けたいですが
00:26:35.557 --> 00:26:41.252
これは 文上のどの出典によっても
取り上げられていないと
00:26:41.252 --> 00:26:44.939
人々が強く希望するのであれば
00:26:44.939 --> 00:26:46.803
議論の余地はあります
00:26:49.079 --> 00:26:53.303
ですが 数少ないであろう事例のために
00:26:53.303 --> 00:26:56.523
複雑になってしまうのが心配です
00:26:57.393 --> 00:27:00.188
皆さんが強く望まれるものなら
00:27:00.188 --> 00:27:04.087
喜んでそうしたいのですが
00:27:04.087 --> 00:27:08.177
(聴衆5)追加されるのであれば
デフォルトではなく
00:27:08.177 --> 00:27:12.452
初心者などには表示されない
インターフェースにして
00:27:12.452 --> 00:27:16.190
「詳細を追加するなら ここをクリック」
などとするといいでしょう
00:27:17.632 --> 00:27:23.368
実際 問題になりうる頻度はどうでしょう
00:27:24.520 --> 00:27:26.423
(聴衆5)エストニア語では
例えば―
00:27:26.423 --> 00:27:28.844
これは他の言語にも
当てはまると思いますが
00:27:29.274 --> 00:27:35.510
例えば 正規に英語に翻訳されている
00:27:36.206 --> 00:27:40.314
特定の行政区の公式名があって
00:27:40.324 --> 00:27:42.182
それが私のユースケースでした
00:27:42.182 --> 00:27:44.409
かつて「parish」という
言葉を使っていて
00:27:45.159 --> 00:27:50.628
それが元のエストニア語の言葉では
教会区というような意味であり
00:27:50.628 --> 00:27:51.899
それが由来でしたが
00:27:51.899 --> 00:27:54.809
それは現在エストニア語で
公式の翻訳ではありません
00:27:55.189 --> 00:27:58.993
そのケースでは
公式名を文に追加して
00:27:58.993 --> 00:28:00.817
出典もそこに追加できます
00:28:01.992 --> 00:28:03.218
(聴衆5)分かりました
00:28:05.186 --> 00:28:06.572
他にご質問は?
00:28:07.682 --> 00:28:10.044
(聴衆6)意見が2つあります
00:28:10.044 --> 00:28:13.934
良い成績の言語として
アストゥリアス語を特に挙げられましたが
00:28:13.934 --> 00:28:16.455
誤ったアーティファクトだと思います
00:28:16.455 --> 00:28:17.724
教えてください
00:28:17.724 --> 00:28:19.748
(聴衆6)それはボットが
00:28:19.748 --> 00:28:24.068
人名や固有名詞を
貼り付けたものだと思います
00:28:24.068 --> 00:28:27.172
「フランス語やスペイン語でも
まったく同じ」と言うように
00:28:27.172 --> 00:28:28.558
ただ大量にコピーしたんです
00:28:28.558 --> 00:28:31.766
証拠の1つに
アストゥリアス語で
00:28:31.766 --> 00:28:35.440
固有名詞以外の
プロパティ名や項目名などで
00:28:35.440 --> 00:28:39.216
翻訳を必要としている取り組みは
あまり見られません
00:28:39.648 --> 00:28:41.142
心が痛みます
00:28:41.142 --> 00:28:43.538
(聴衆6)分かります
水を差してしまいましたよね
00:28:43.538 --> 00:28:48.458
でも 良いこともあります
発音の数です
00:28:49.408 --> 00:28:53.515
恐らくご存知のように
コモンズは発音のファイルがいっぱいで
00:28:53.515 --> 00:28:54.668
例えば
00:28:54.668 --> 00:29:01.102
オランダ語はコモンズにすでに
30万以上の発音のファイルがあり
00:29:01.912 --> 00:29:05.051
方法はどうあれ
取り込まれる必要があるだけです
00:29:05.051 --> 00:29:07.697
サイドプロジェクトを
探している方がいれば
00:29:07.697 --> 00:29:08.997
大量に
00:29:08.997 --> 00:29:13.280
分類された発音のファイルが
コモンズの
00:29:13.280 --> 00:29:16.893
「Pronunciation(発音)」
項目に言語別にあり
00:29:16.893 --> 00:29:22.840
語彙素との一致と語彙素への掲載を
ただ待っている状態です
00:29:23.180 --> 00:29:26.574
ロードマップについて
言えることはありますか
00:29:26.585 --> 00:29:28.757
投資額とか
00:29:28.757 --> 00:29:31.995
来たる年に
語彙素から期待できることなど
00:29:31.995 --> 00:29:34.020
私も待ちきれない一人ですから
00:29:34.949 --> 00:29:37.044
待ちきれないですか?(笑)
00:29:37.044 --> 00:29:39.198
- (聴衆6)期待してます
- はい(笑)
00:29:44.541 --> 00:29:49.523
現在は ウィキベースと
データの質のほうに力を入れて
00:29:51.493 --> 00:29:55.087
これがどれだけ
けん引力を得られるか見ています
00:29:55.087 --> 00:30:01.676
その次に 解決が難しい
問題に取り組み
00:30:01.676 --> 00:30:06.003
その後 辞書学データの
さらなる改善に戻る予定です
00:30:06.903 --> 00:30:09.790
あなたにお聞きしたいことの1つは
00:30:09.790 --> 00:30:14.136
次のステップとなる箇所と
00:30:14.136 --> 00:30:15.966
改善点を見たい箇所です
00:30:15.966 --> 00:30:20.340
そうすれば
実現の方法を考えます
00:30:21.125 --> 00:30:22.810
もちろん仰ることは正しく
00:30:22.810 --> 00:30:25.712
技術面での仕事は
まだたくさんあります
00:30:30.573 --> 00:30:35.848
(聴衆7)バスク語の言葉を
語形と一緒にアップロードしていた際に
00:30:35.848 --> 00:30:37.768
こんなことがありました
00:30:37.768 --> 00:30:41.329
先週 私たち二人とも
自分たちが初だと言っていたら
00:30:42.919 --> 00:30:44.928
報道されて
00:30:44.928 --> 00:30:49.488
「バスク語で初の業績―
彼らが初の何かを」と
00:30:49.488 --> 00:30:50.606
(笑)
00:30:50.606 --> 00:30:53.318
そしてこれは何のためかと
聞かれたんです
00:30:54.678 --> 00:30:56.849
私たちには
良い答えがありませんでした
00:30:56.849 --> 00:30:57.888
これによって
00:30:57.888 --> 00:31:01.841
コンピュータが私たちの言語を
理解しやすくなるのは分かりますが
00:31:01.841 --> 00:31:05.279
将来 どんなツールを
開発できるでしょうか
00:31:05.279 --> 00:31:07.467
私には分かりませんが
00:31:07.467 --> 00:31:10.625
これに対する
良い答えをお持ちでしょうか
00:31:10.625 --> 00:31:12.742
(笑)私に良い答えがあるか
分かりませんが
00:31:12.742 --> 00:31:14.746
答えはあります
00:31:15.480 --> 00:31:20.425
現在は 先ほどお伝えしたように
00:31:20.425 --> 00:31:23.504
数々の興味深いツールを
開発できるような
00:31:23.504 --> 00:31:25.529
臨界点には達していません
00:31:25.529 --> 00:31:27.707
でもすでに
ツールはいくつかあります
00:31:28.267 --> 00:31:31.912
例えば つい先日
エスター・パンデリアが
00:31:31.912 --> 00:31:33.817
ツールをリリースしました
00:31:35.837 --> 00:31:38.259
それは世界の言語が
00:31:38.259 --> 00:31:41.901
どこで話され どこから来ているか
分かるものです
00:31:42.631 --> 00:31:44.090
確かではありませんが
00:31:44.090 --> 00:31:46.726
ウィキデータのプロジェクトチャット上で
公表されました
00:31:46.726 --> 00:31:48.984
お調べいただけます
00:31:49.574 --> 00:31:53.527
ウィキペディア開始時に
見ていたように
00:31:53.527 --> 00:31:55.696
最初のツールを見ています
00:31:56.846 --> 00:31:59.602
最初は...
ネットワークと同様
00:31:59.602 --> 00:32:03.424
徐々に繋がりが明らかになります
00:32:04.824 --> 00:32:07.059
データが増えるにつれ
00:32:07.059 --> 00:32:10.352
臨界に達して
00:32:11.852 --> 00:32:14.747
性能の良い
アプリケーションが可能になります
00:32:15.677 --> 00:32:17.516
例えば ヒストロペディアや
00:32:19.126 --> 00:32:23.746
携帯端末での質疑応答や
00:32:23.746 --> 00:32:26.663
Platypusなどのようなものです
00:32:26.663 --> 00:32:29.668
語彙素でも
同様のものを見ています
00:32:31.198 --> 00:32:34.650
このようなものを
開発できる段階には来ていて
00:32:34.650 --> 00:32:37.464
関連性も分かっていて
00:32:37.864 --> 00:32:42.738
別の言語へ
言葉を翻訳できる段階なので
00:32:42.738 --> 00:32:47.747
開発につれ
より多くの言葉を表すにつれ
00:32:47.747 --> 00:32:49.533
たくさんのことが可能になります
00:32:49.533 --> 00:32:51.795
何が可能になるかというと
00:32:53.482 --> 00:32:59.483
基調講演でベンが
翻訳についてお話したように
00:33:00.103 --> 00:33:03.455
1つの言語から別の言語へ
翻訳できます
00:33:03.486 --> 00:33:07.929
また同僚のイェンスが
いつも言うことには
00:33:07.929 --> 00:33:11.452
欧州連合が
翻訳者を求めているそうで
00:33:11.452 --> 00:33:17.439
マルタ語から
スウェーデン語へ翻訳できる―
00:33:17.439 --> 00:33:19.436
- (聴衆8)エストニア語です
- 失礼
00:33:22.016 --> 00:33:26.211
あまりない組み合わせですね
00:33:27.211 --> 00:33:31.735
こうした言語がすべて
機械で読める1か所の場所にあれば
00:33:31.735 --> 00:33:33.143
翻訳できるのです
00:33:33.143 --> 00:33:36.857
エストニア語からマルタ語へ
またはその逆でも翻訳できる
00:33:36.857 --> 00:33:41.735
辞書が手に入るのです
00:33:42.935 --> 00:33:45.607
今までは 例えばコストの面から
作業を正当化できるほど
00:33:45.607 --> 00:33:47.911
十分な需要がなかったため
00:33:47.911 --> 00:33:51.050
これまで辞書でカバーされていなかった
00:33:51.050 --> 00:33:55.540
言語の組み合わせがあったわけですが
00:33:55.540 --> 00:33:57.147
それが今は行えます
00:33:59.797 --> 00:34:02.318
それと テキスト生成です
00:34:02.318 --> 00:34:04.259
ルーシーが先ほど
00:34:04.259 --> 00:34:06.226
テキスト生成に関して
00:34:06.226 --> 00:34:10.136
少数言語で
ウィキペディアの記事を開始するため
00:34:10.136 --> 00:34:14.673
ハッティとどのように
取り組んでいるかをお話しました
00:34:15.423 --> 00:34:19.512
それには 言葉に関するデータが必要で
00:34:19.512 --> 00:34:22.589
そのためには その言語について
理解する必要があります
00:34:23.769 --> 00:34:28.133
そうしたことが
今私に浮かんだアイデアです
00:34:28.693 --> 00:34:31.254
その壮大なデータが得られた場合
何をしたいか
00:34:31.254 --> 00:34:34.353
皆さんには もっとアイデアが
あるかもしれませんね
00:34:37.693 --> 00:34:40.892
(聴衆9)語彙素のトピックから
外れますが
00:34:40.892 --> 00:34:42.666
質問させてください
00:34:42.666 --> 00:34:46.754
コミュニティーの一員として
仕事の優先順位に
00:34:46.754 --> 00:34:50.135
私はどう影響を与えられるでしょうか
00:34:50.144 --> 00:34:54.593
新規ユーザーが
秘密の合言葉なしに
00:34:54.593 --> 00:35:01.135
編集したい言語を
示せるようにできるのでしょうか
00:35:02.145 --> 00:35:04.264
ウィキペディアのトピックなしの
00:35:04.264 --> 00:35:07.040
技術的要望リストがいつの日か
訪れるかも知れません
00:35:07.040 --> 00:35:10.119
7年間放置されていたことが
00:35:10.119 --> 00:35:14.218
全員一致の意見で直すことに
なるかも知れません
00:35:14.218 --> 00:35:17.607
これについて
お考えやご意見は?
00:35:18.217 --> 00:35:20.328
仰っているのは
00:35:20.328 --> 00:35:23.518
ウィキデータに
ログインしていない人が
00:35:23.518 --> 00:35:25.971
簡単に言語を変更できないという
問題ですか?
00:35:25.971 --> 00:35:28.132
(聴衆9)いいえ
新規ユーザーです
00:35:28.132 --> 00:35:30.689
新規ユーザーが
ログインしていれば
00:35:30.689 --> 00:35:34.871
ページ上部で
言語を変更できますし
00:35:35.891 --> 00:35:39.769
ラベルの説明が
[聞き取り不能]場所に
00:35:39.769 --> 00:35:42.013
それが表示され
00:35:42.013 --> 00:35:43.483
編集できます
00:35:45.657 --> 00:35:49.009
(聴衆9)大抵の
ワークフローでは
00:35:49.009 --> 00:35:52.447
複数の言語を望めば
利用できますが
00:35:52.447 --> 00:35:55.419
いつもそうとは限りません
00:35:55.419 --> 00:35:58.584
この講演の後に
詳しく伺いましょう
00:36:01.562 --> 00:36:04.089
いいですね
他にご質問は?
00:36:05.534 --> 00:36:06.536
どうぞ
00:36:11.595 --> 00:36:13.196
(聴衆10)良いプレゼンでした
00:36:14.257 --> 00:36:18.091
ウィクショナリーのコミュニティーとの
相互関係の状態について
00:36:18.091 --> 00:36:19.307
ご意見をください
00:36:19.307 --> 00:36:20.956
私が見ている限り
00:36:20.956 --> 00:36:26.051
作業の重要な要素のインポートについて
議論がありますが
00:36:26.051 --> 00:36:30.843
ライセンスの問題や
異論などがあるようです
00:36:30.843 --> 00:36:31.848
はい
00:36:31.848 --> 00:36:34.520
ウィクショナリーのコミュニティーは
00:36:34.520 --> 00:36:39.473
ウィクショナリー開発に
長い時間をかけてきています
00:36:39.533 --> 00:36:42.774
彼らが開発してきた
00:36:42.774 --> 00:36:47.554
驚くほど難しく複雑な
テンプレートは
00:36:47.554 --> 00:36:53.614
きれいな表を作成して
フォームを自動生成してくれたり
00:36:53.614 --> 00:37:00.136
いろいろと素晴らしく
並外れたことをしてくれます
00:37:02.311 --> 00:37:07.994
もちろん 彼らは多くの時間と努力を
費やしてきています
00:37:09.364 --> 00:37:11.801
当然のことながら
00:37:11.801 --> 00:37:18.786
ただそんな具合に
誰かの手に渡したくはないのです
00:37:19.102 --> 00:37:21.791
ライセンスの問題は
そこから生じているものもあります
00:37:22.761 --> 00:37:25.137
それでいいのです
00:37:25.737 --> 00:37:31.262
最初のウィクショナリーの
コミュニティーが調整を行い
00:37:31.262 --> 00:37:34.329
ウィキデータへデータを
インポートする話をしています
00:37:34.329 --> 00:37:39.095
ご覧になったロシア語は
その一例で
00:37:40.375 --> 00:37:42.355
これは今後も起こると思います
00:37:43.635 --> 00:37:46.800
時間のかかるプロセスです
00:37:46.800 --> 00:37:49.753
ウィキペディアへ
ウィキデータのデータを採用するのと同様
00:37:49.753 --> 00:37:51.909
時間がかかります
00:37:52.849 --> 00:37:58.625
語彙素データを
利用しやすくする一方で
00:37:58.632 --> 00:38:02.269
ウィクショナリーでも
それを活用し
00:38:02.269 --> 00:38:05.531
語彙素とウィクショナリー間で
データを共有できるようにするのは
00:38:05.531 --> 00:38:08.853
現状では困難です
00:38:08.853 --> 00:38:11.560
ウィキペディアであったように
とんでもないことです
00:38:13.860 --> 00:38:16.325
誕生日プレゼントを
お待ちください(笑)
00:38:20.038 --> 00:38:21.182
どうぞ
00:38:22.599 --> 00:38:25.950
(聴衆11)ばかげているので
言いたくなかったのですが
00:38:25.950 --> 00:38:28.168
逆の見方をしていました
00:38:28.168 --> 00:38:32.003
ウィクショナリーに
すでにコンテンツがあっても
00:38:32.003 --> 00:38:34.248
ライセンスで違いがあるため
00:38:34.248 --> 00:38:37.048
ウィキデータに転送できないと
分かっていますが
00:38:37.048 --> 00:38:39.631
それに対処できるのではと
考えていました
00:38:40.321 --> 00:38:45.913
例えば コミュニティーの許可を得た後に
00:38:45.913 --> 00:38:51.205
公開投票などを行い
00:38:52.075 --> 00:38:56.601
コミュニティーに対しては
アクティブなメンバーが投票し
00:38:56.601 --> 00:39:02.523
コンテンツ転送の
承認や可否について発言し
00:39:02.523 --> 00:39:05.528
それに対し ウィキデータの語彙素に
取り組めばいいと思います
00:39:06.238 --> 00:39:08.537
もったいないからです
00:39:09.568 --> 00:39:14.961
それはまさにウィクショナリーの
コミュニティーにいる人たちが
00:39:14.961 --> 00:39:18.249
快く議題として取り上げるお話です
00:39:18.249 --> 00:39:24.647
私たちがそこで押し付けるのは
厚かましいですが
00:39:25.917 --> 00:39:31.142
話し合うのは
確かに価値があると思います
00:39:31.142 --> 00:39:34.972
ですが 法的に許可されることと
00:39:34.972 --> 00:39:39.082
私たちがすべきことと
00:39:39.082 --> 00:39:43.147
人々が望むこと
望まないことの間には
00:39:43.147 --> 00:39:45.426
相違があると
理解するのも重要です
00:39:45.736 --> 00:39:47.329
ですから 法的に許可されても
00:39:47.329 --> 00:39:50.640
ウィクショナリーの
コミュニティーが望まなければ
00:39:50.640 --> 00:39:53.537
少なくとも
気を付けたほうがいいでしょう
00:39:58.886 --> 00:40:02.249
マイクをお持ちください
00:40:04.540 --> 00:40:07.299
(聴衆12)すべて素晴らしいお話でした
00:40:07.979 --> 00:40:12.319
すぐに思ったことは
私の生徒にどうやって伝えようかとか
00:40:12.319 --> 00:40:15.558
課程にどう組み込もうかとか
00:40:15.558 --> 00:40:18.531
私たちの仕事や
教育の場面などでした
00:40:18.531 --> 00:40:24.116
私には 現時点で
まず十分な知識がありません
00:40:24.116 --> 00:40:27.278
ですが 今あるドキュメンテーションは
00:40:27.808 --> 00:40:30.082
改善の余地があると思います
00:40:30.082 --> 00:40:31.947
そこでリクエストしたいのは
00:40:31.947 --> 00:40:35.898
仕組みを説明してくれる動画です
00:40:35.898 --> 00:40:39.948
それがあれば 活用できます
00:40:39.948 --> 00:40:41.985
生徒に参加してもらったり
00:40:41.985 --> 00:40:47.072
どれだけ素晴らしいかを
人々に理解してもらえます
00:40:47.072 --> 00:40:52.001
ぜひドキュメンテーションと
教育についてお考えください
00:40:52.001 --> 00:40:54.480
多くの成果が得られるはずです
00:40:54.480 --> 00:40:58.585
たくさんの仕事を…
00:41:00.125 --> 00:41:02.033
小中学校とは言いませんが
00:41:02.033 --> 00:41:05.495
若い生徒たちに行ってもらえます
00:41:05.915 --> 00:41:10.866
その可能性を
取り入れていただければと思います
00:41:10.866 --> 00:41:15.272
現時点で 私は十分に理解していないので
00:41:15.272 --> 00:41:22.155
タスクの作成や実用的な仕事が
できるわけではありません
00:41:22.155 --> 00:41:25.772
どんな支援や意見についても
ここのどなたかがお持ちであれば
00:41:25.772 --> 00:41:29.648
ご自身のご意見も含め
お聞かせいただければ
00:41:30.508 --> 00:41:32.129
ええ 後ほどお話しましょう
00:41:35.473 --> 00:41:37.139
他にご質問は?
00:41:37.809 --> 00:41:39.195
先ほど挙手がありましたが
00:41:39.195 --> 00:41:40.495
どなたでしょう
00:41:45.739 --> 00:41:49.996
(発言者13)ウィクショナリーから
インポートできないなら
00:41:49.996 --> 00:41:55.730
他のパブリック ドメインのソースや
あらゆるデータを見つけるための
00:41:55.730 --> 00:41:57.459
協調努力はありますか
00:41:58.769 --> 00:42:03.167
それを事前にフィルタリングしたり
整理したりすれば
00:42:03.167 --> 00:42:08.470
人々が確認して
インポートしやすくなります
00:42:09.093 --> 00:42:11.181
努力はあります
00:42:11.181 --> 00:42:14.769
私の知る限り
バスク語がその努力の1つですが
00:42:14.769 --> 00:42:17.474
それについて
仰りたいことがあればどうぞ
00:42:18.416 --> 00:42:20.120
(聴衆14)[聞き取り不能]
00:42:23.166 --> 00:42:27.148
解決策は
それに対する支払いです...
00:42:28.374 --> 00:42:33.381
私たちには通常 一緒に仕事をしている
委託業者との契約があり
00:42:34.801 --> 00:42:38.094
彼らが辞書関連の仕事をしています
00:42:38.755 --> 00:42:42.458
他の業務に加えて
辞書関連の仕事をしています
00:42:42.458 --> 00:42:47.473
私たちは業者と生徒向けの無料の
辞書を開発する契約をしており
00:42:47.473 --> 00:42:50.499
最も一般的な言葉を[キャスト]し
00:42:50.499 --> 00:42:55.590
外部識別子やスキーマと共に
アップロードするものです
00:42:56.420 --> 00:43:02.902
それをパブリック ドメイン(CC0)に
することには議論がありました
00:43:03.012 --> 00:43:05.792
CCを伴う辞書を
所有しているからです
00:43:06.977 --> 00:43:10.011
彼らは相違点を理解していました
00:43:10.326 --> 00:43:13.746
ですから 議論はありましたが
00:43:13.746 --> 00:43:19.709
将来 私たちがツールや事例を
提供できると思いますし
00:43:19.709 --> 00:43:23.781
私たちが扱える
他の辞書も予定されています
00:43:24.016 --> 00:43:29.274
ウィクショナリーもその方向に
進み始めたほうがいいと思いますが
00:43:29.274 --> 00:43:32.260
それはまた
別の大きな議論が必要でしょう
00:43:33.285 --> 00:43:34.487
それに加えて
00:43:34.487 --> 00:43:38.839
オクシタン語の辞書に取り組む
オクシタン出身の人々と
00:43:38.839 --> 00:43:41.827
リーアが連携して
00:43:41.827 --> 00:43:45.138
現在 シュメール語の
コラボレーションに取り組んでいます
00:43:51.644 --> 00:43:53.363
他にご質問は?
00:44:01.487 --> 00:44:05.349
(聴衆15)オクシタン語のデータを
インポートしたいのですが
00:44:05.349 --> 00:44:06.585
いいタイミングですね
00:44:06.585 --> 00:44:08.368
(聴衆15)少し問題があり
00:44:09.188 --> 00:44:14.215
多様な語彙素のすべてを表す
方法が分かりません
00:44:14.215 --> 00:44:17.893
私たちには6つの方言があり
00:44:17.893 --> 00:44:24.014
どの方言が使われているかを
語彙素に示したいのです
00:44:24.014 --> 00:44:27.285
でも それを行うのに
適切なC0文がありません
00:44:27.285 --> 00:44:31.585
セグメントが存在しない限り
00:44:31.635 --> 00:44:34.465
[聞き取り不能]ができません
00:44:34.465 --> 00:44:37.603
文へエキスポートできるようになった時に
00:44:37.603 --> 00:44:42.076
再度行う必要が出てくるからです
00:44:42.076 --> 00:44:47.801
たくさんの人が依頼する
文ではないので 複雑です
00:44:47.802 --> 00:44:53.054
大抵は少数言語に
関係する文だからです
00:44:53.444 --> 00:44:56.933
依頼するのが一人だけのこともあります
00:44:56.933 --> 00:45:00.022
ですが バスク語の同僚たちにとっては
00:45:00.022 --> 00:45:06.082
一人でも 何千もの他の人に
力を与えられるかもしれません
00:45:06.082 --> 00:45:10.884
ですから 依頼が多くなくても
00:45:10.884 --> 00:45:14.136
重要なのです
00:45:14.874 --> 00:45:17.600
新しいプロパティの提案は
済んでいますか?
00:45:17.600 --> 00:45:19.470
それとも提案に協力が必要ですか?
00:45:21.524 --> 00:45:24.300
(聴衆15)4か月前にお願いしました
00:45:24.720 --> 00:45:28.755
では誰かにそのプロパティの提案に
協力してもらいましょう
00:45:30.159 --> 00:45:33.092
この部屋に 実現してくれる人が
十分いるはずです
00:45:33.240 --> 00:45:35.922
(聴衆15)プロパティ提案
[フランス語]
00:45:36.105 --> 00:45:39.699
回答がなく方法が分かりません
00:45:39.699 --> 00:45:42.953
私たちはウィキデータの
コミュニティーには属していませんから
00:45:44.694 --> 00:45:48.817
ええ ですから
ここに協力できる人たちがいます
00:45:48.817 --> 00:45:52.134
ご協力いただける方は
手を挙げてください
00:45:52.234 --> 00:45:53.684
(聴衆14)私がやります
00:45:53.684 --> 00:45:55.512
語形の異形だけでなく
00:45:55.512 --> 00:46:02.359
座標や何らかのマッピングで
それを地理的にも扱えるのが
00:46:02.359 --> 00:46:04.747
とても興味深いです
00:46:05.595 --> 00:46:07.815
異なる発音があるということも
00:46:07.815 --> 00:46:11.837
たくさんの言語に
当てはまることだと思います
00:46:12.607 --> 00:46:16.262
実現に向けて取り組むべきです
00:46:16.262 --> 00:46:18.865
プロパティを検索します
00:46:19.782 --> 00:46:20.933
いいですね
00:46:20.933 --> 00:46:24.446
あなたのプロパティ提案に
サポートがあるはずです
00:46:26.136 --> 00:46:27.297
ありがとうございます
00:46:28.153 --> 00:46:30.261
他にご質問は?
00:46:32.410 --> 00:46:33.474
フィン
00:46:33.974 --> 00:46:37.515
フィンは辞書学データを基に
開発している者の一人です
00:46:38.031 --> 00:46:40.085
(フィン)ちょっとした質問ですが
00:46:40.405 --> 00:46:44.226
異なる綴りについてです
00:46:44.896 --> 00:46:48.002
作業が難しいようです
00:46:48.532 --> 00:46:53.368
もちろん 同じ言葉に
複数の語形がある場合はありますが
00:46:56.327 --> 00:46:58.448
どうやら…
00:46:59.558 --> 00:47:03.535
そうでなければ
規定が難しく
00:47:04.771 --> 00:47:09.578
単に小さな技術面での問題なのか
分かりませんが
00:47:09.731 --> 00:47:11.252
後で一緒に話しましょう
00:47:11.642 --> 00:47:15.230
例を見てみたいです
00:47:17.478 --> 00:47:18.478
アザーフ
00:47:26.886 --> 00:47:28.396
(アザーフ)ありがとう
00:47:29.386 --> 00:47:33.685
私の母国語ヘブライ語から
具体例を挙げますと
00:47:34.205 --> 00:47:38.845
ヘブライ語には
ほぼすべての言葉の表現に
00:47:38.845 --> 00:47:42.786
2つ主な異形があります
00:47:42.786 --> 00:47:49.864
伝統的な綴りでは
多くの母音が除外されるからです
00:47:50.934 --> 00:47:55.049
ですから 聖書や詩の現代版では
00:47:55.207 --> 00:47:56.991
付加記号が使われています
00:47:57.461 --> 00:48:00.166
しかしながら
こうした付加記号は
00:48:00.166 --> 00:48:04.074
現代の散文や新聞記事や
道路標識などでは
00:48:04.074 --> 00:48:05.974
全く使われていません
00:48:05.974 --> 00:48:11.209
ですから 平均的な
日常のカジュアルな使用では母音を加え
00:48:12.169 --> 00:48:13.519
付加記号を使いません
00:48:13.519 --> 00:48:15.310
より面倒なことになり
00:48:15.310 --> 00:48:18.033
いろいろな規則があるものの
誰も理解していないからです
00:48:18.633 --> 00:48:20.531
ですから 2つの異形があって
00:48:20.531 --> 00:48:25.322
日常のカジュアルな散文で
使われるものと
00:48:25.322 --> 00:48:30.307
常に伝統的な
記号が付加された文章で現れる
00:48:30.307 --> 00:48:32.200
聖書や詩で使われるものです
00:48:32.200 --> 00:48:33.772
語彙素が役立つには
00:48:33.772 --> 00:48:37.428
ありとあらゆる言葉と
ありとあらゆる言葉の語形の
00:48:37.428 --> 00:48:39.747
両方の異形を
認識する必要があります
00:48:40.677 --> 00:48:43.391
これは公式の不変の異形に対する
00:48:43.391 --> 00:48:46.340
とても包括的なユースケースです
00:48:46.340 --> 00:48:48.942
方言ではなく
地域でもなく
00:48:49.332 --> 00:48:53.627
2つの共存している
形態体系なのです
00:48:54.537 --> 00:48:58.926
現在の語彙素でこれを表す方法を
私もよく分かっていません
00:48:58.926 --> 00:49:02.720
マグナスの質問に一部
回答することになりますがー
00:49:02.720 --> 00:49:05.668
公開されている最大のヘブライ語辞書から
準備できている部分を
00:49:05.668 --> 00:49:08.102
私がアップロードできていない
理由の1つです
00:49:08.102 --> 00:49:13.141
その辞書は私が7年間デジタル化しており
00:49:13.141 --> 00:49:14.803
かなりの量が準備できていますが
00:49:14.803 --> 00:49:16.549
現在語彙素に移していません
00:49:16.549 --> 00:49:20.245
この問題の解決法が
よく分からないからです
00:49:20.245 --> 00:49:23.387
では その問題を
ここで解決しましょう(笑)
00:49:24.503 --> 00:49:26.021
可能なはずです
00:49:30.045 --> 00:49:32.047
では 他に質問は?
00:49:37.173 --> 00:49:39.735
なければ以上です
ありがとうございました
00:49:40.605 --> 00:49:42.675
(拍手)