0:00:00.491,0:00:02.365
[ウィキデータと言語]
0:00:02.365,0:00:05.946
[リディア・ピンチャー][br][ウィキデータと言語]
0:00:05.946,0:00:07.294
ありがとうございます
0:00:07.362,0:00:11.244
この会議で大きなテーマの1つは[br]言語です
0:00:14.220,0:00:15.993
これからお伝えするのは
0:00:15.993,0:00:18.499
言語に関する現状と
0:00:18.499,0:00:21.977
将来の展望についての概要です
0:00:29.036,0:00:30.222
ウィキデータの使命は
0:00:30.222,0:00:33.519
もっと多くの人が豊富な知識を[br]利用できるようにすることです
0:00:33.519,0:00:37.298
言語はそれを実現するのに[br]極めて重要です
0:00:38.205,0:00:43.291
特に 私たちの生活はますます[br]テクノロジーに依存しているため
0:00:44.114,0:00:48.873
今日の基調講演で[br]講演者が話していたように
0:00:49.723,0:00:51.588
ある言語を話せないことにより
0:00:51.588,0:00:55.020
テクノロジーが[br]人を置き去りにする場合があります
0:00:55.320,0:00:57.255
それは良いとは言えません
0:00:58.633,0:01:02.097
何とかしたいと思っています
0:01:02.927,0:01:05.841
改善のためには[br]少なくとも 次の2つが必要です
0:01:06.411,0:01:11.124
1つは 皆さんのの言語で[br]コンテンツを提供することです
0:01:11.270,0:01:13.985
2つ目は アプリケーションなど[br]何においても
0:01:13.985,0:01:19.189
皆さんの言語で[br]やりとりすることです
0:01:20.367,0:01:24.888
ウィキデータは[br]この2つの点に役立ちます
0:01:25.277,0:01:28.408
まず 皆さんの言語での[br]コンテンツですが
0:01:28.408,0:01:31.239
これは基本的に[br]項目とプロパティにある内容で
0:01:31.319,0:01:33.082
私たちが世界を表す方法です
0:01:33.082,0:01:35.085
必要なものは[br]これだけではないですが
0:01:35.085,0:01:39.294
これにより[br]改善が進むはずです
0:01:39.764,0:01:41.847
もう1つは[br]皆さんの言語によるやりとりです
0:01:41.847,0:01:46.389
ここが語彙素の出番です
0:01:46.389,0:01:49.382
携帯端末の[br]音声アシスト機能を利用する場合や
0:01:49.382,0:01:54.918
デバイスに文章を翻訳させたい場合[br]などに活躍します
0:01:56.404,0:01:59.254
では 皆さんの言語でのコンテンツを[br]見ていきましょう
0:01:59.254,0:02:03.396
これは items(項目)と[br]properties(プロパティ)の内容です
0:02:05.406,0:02:09.696
コンテンツには[br]項目とプロパティにあるラベルが重要です
0:02:10.236,0:02:14.866
話題のエンティティが[br]何と呼ばれるか知る必要があります
0:02:15.656,0:02:19.987
「Q5」が話題である場合
0:02:19.987,0:02:22.180
それは英語話者にとっては[br]「human」であり
0:02:22.180,0:02:24.706
ドイツ語話者とっては[br]「mensch」である
0:02:24.706,0:02:26.374
というようなものです
0:02:26.374,0:02:29.742
項目とプロパティに付いた[br]こうしたラベルは
0:02:29.742,0:02:33.619
人間と機械 そして人間と人間の
0:02:33.619,0:02:35.439
ギャップを埋めてくれます
0:02:35.439,0:02:40.115
それにより 既存の知識が 皆にとって[br]さらに利用しやすくなっています
0:02:43.270,0:02:46.290
これには期待が持てますね[br][範囲の状況は?]
0:02:46.290,0:02:48.342
実際の状況はどうでしょうか
0:02:48.342,0:02:49.607
このようになっています
0:02:50.947,0:02:52.416
ここで分かることは
0:02:52.416,0:02:56.338
ウィキデータにある[br]項目の大半には
0:02:56.338,0:03:00.767
2つの言語で[br]ラベルがあるということです
0:03:01.697,0:03:03.851
それに次いで[br]1つ、3つの言語
0:03:03.851,0:03:06.115
その後は悲しい状態です
0:03:06.781,0:03:08.581
(静かな笑い)
0:03:10.047,0:03:12.713
これを改善しましょう
0:03:14.185,0:03:15.319
でも一方では
0:03:15.319,0:03:17.478
もっと悪い状況を想像していました
0:03:17.478,0:03:19.560
平均は1言語だと思っていましたから
0:03:19.560,0:03:22.503
2言語だと分かって満足です(笑)
0:03:24.921,0:03:26.186
では次
0:03:27.156,0:03:33.700
興味深いのは 項目とプロパティにある[br]ラベルの数だけでなく
0:03:33.742,0:03:36.565
どの言語か知ることも[br]興味深いものです
0:03:38.045,0:03:41.363
ここに示されているグラフは
0:03:42.748,0:03:46.767
Items(項目)にラベルがある言語です
0:03:46.838,0:03:50.669
大きく占めているのは[br]Otherです
0:03:51.229,0:03:53.863
グラフが読めるよう
0:03:54.533,0:03:58.902
上位100の言語を抽出したので[br]その他がOtherになっています
0:03:59.542,0:04:02.142
英語、オランダ語
0:04:03.002,0:04:04.254
フランス語
0:04:05.924,0:04:08.924
そして特に アストゥリアス語
0:04:09.659,0:04:11.749
- (聴衆1)やった![br]- 嬉しいですね!
0:04:13.899,0:04:16.954
不均衡になっていることが[br]ここで分かりです
0:04:16.954,0:04:20.114
英語が多くの比率を占めています
0:04:21.236,0:04:24.367
同様にProperties(プロパティ)の[br]グラフを見ると
0:04:24.367,0:04:25.999
こちらのほうが[br]均衡が取れています
0:04:27.399,0:04:32.750
これはプロパティがはるかに[br]少ないことにもよるのでしょう
0:04:32.750,0:04:36.770
ですから比較的小さなコミュニティーでも[br]引けをとりません
0:04:36.770,0:04:39.042
皆さんの言語に[br]ローカライズすることは
0:04:39.042,0:04:41.159
ウィキデータの[br]重要な部分でもありますから
0:04:41.159,0:04:42.384
これは良いことです
0:04:45.752,0:04:48.860
ここで強調したいことは[br]アストゥリアス語で
0:04:49.564,0:04:51.740
小さなコミュニティーでも
0:04:51.740,0:04:57.085
熱意と仕事で[br]大きな変化をもたらせるということです
0:04:57.085,0:04:58.420
素晴らしいことです
0:05:01.846,0:05:03.184
皆さんに質問です
0:05:03.530,0:05:07.240
ウィキデータで外部識別子を除く[br]すべてのプロパティのうち
0:05:07.687,0:05:10.458
どれに多くのラベルが[br]つまり多くの言語があるでしょうか
0:05:10.977,0:05:13.847
(聴衆)[聞き取り不能]
0:05:13.847,0:05:16.786
instance of[br]という声があがりましたね
0:05:17.506,0:05:19.443
違います
0:05:19.983,0:05:22.210
正解はimageです(笑)
0:05:23.230,0:05:28.516
あなたが instance ofに[br]まだラベルがない言語を話すなら
0:05:28.621,0:05:30.190
追加してください
0:05:31.972,0:05:35.676
現在 ラベルの数は148です
0:05:37.653,0:05:40.953
別のスライドです
0:05:42.631,0:05:44.042
このグラフは
0:05:44.042,0:05:49.321
どれだけのコンテンツが[br]ある言語で利用できるようになっているか
0:05:49.321,0:05:52.042
またどれだけそのコンテンツが[br]利用されたかを示しています
0:05:52.042,0:05:55.448
これは曲線ですよね
0:05:55.448,0:06:00.987
大半のコンテンツに[br]英語のラベルがあり 英語で利用でき
0:06:01.507,0:06:03.735
たくさん利用されています
0:06:04.295,0:06:06.449
そして値は下がっていきます
0:06:06.449,0:06:09.436
ですが 外れ値もあり
0:06:09.436,0:06:15.333
必然的に予想されるよりも[br]たくさんのコンテンツがあります
0:06:16.903,0:06:19.539
これはとても良いことです
0:06:20.839,0:06:24.945
課題はそれほど利用されていないことです
0:06:25.565,0:06:28.522
アストゥリアス語やオランダ語は[br]もっと利用度が高いはずです
0:06:28.742,0:06:32.451
コミュニティーに協力することにより
0:06:33.266,0:06:37.606
収集データの利用度が向上するのは[br]良いことだと思います
0:06:42.910,0:06:47.067
こちらと先ほどの分析は[br]良い結果を示しています
0:06:47.137,0:06:51.378
ですが 利用度が高い項目に
0:06:51.378,0:06:55.295
より多くのラベルがある[br]傾向があります
0:06:55.295,0:06:57.964
または多くのラベルがあると[br]利用度が高いのでしょうか
0:07:02.513,0:07:04.376
そこで疑問は
0:07:04.806,0:07:07.009
私たちは強力な言語のみを[br]サポートしているのか
0:07:07.899,0:07:11.237
または あらゆる言語を[br]サポートしているのかです
0:07:12.757,0:07:17.429
こちらは言語の分類です
0:07:17.743,0:07:21.832
同じ分類の言語には[br]同じラベルがある傾向があります
0:07:26.042,0:07:28.338
クラスタする傾向が見られます
0:07:28.599,0:07:32.238
こちらは同様のクラスタ分析ですが
0:07:33.018,0:07:39.231
言語の健在度、利用度、[br]危険度に基づいて
0:07:40.256,0:07:42.778
色分けされています
0:07:43.156,0:07:44.642
良い結果として
0:07:44.642,0:07:49.566
安全言語と危機言語とで
0:07:49.566,0:07:53.773
異なるクラスタを[br]形成していないことです
0:07:53.773,0:07:58.872
すべて混じり合っています
0:08:00.262,0:08:04.625
この逆の結果よりも[br]ずっと良いことですよね
0:08:04.625,0:08:09.377
安全言語[br]強力な言語の間だけで
0:08:10.197,0:08:13.939
助け合っている[br]ということではありませんから
0:08:14.356,0:08:17.417
これはとても良いことです
0:08:17.417,0:08:19.871
これを見た時[br]良いことだと思いました
0:08:23.474,0:08:27.769
これも同様の分析データで
0:08:30.230,0:08:35.787
言語状況と[br]言語が所有するラベル数です
0:08:39.257,0:08:42.937
安全言語(分類1)は[br]明らかに勝っており
0:08:42.937,0:08:44.248
予想どおりです
0:08:45.508,0:08:47.233
ですが
0:08:49.063,0:08:54.127
分類2(不安定)、3(危機)[br]4(極めて危険)に分類される言語でさえ
0:08:54.407,0:08:59.280
ウィキデータとその他における[br]表出に関して
0:08:59.280,0:09:02.367
それほど悪くはありません
0:09:03.287,0:09:05.777
それが分かって良かった点です
0:09:07.646,0:09:09.136
同様に
0:09:09.136,0:09:11.111
例えばウィキペディアでの
0:09:11.111,0:09:15.275
こうしたラベルのコンテンツの[br]利用度を見ると
0:09:17.455,0:09:22.563
ここでも同様の結果が分かります
0:09:23.603,0:09:26.676
つまり こうしたコミュニティーは
0:09:26.676,0:09:30.753
例えば 利用度の高い項目に[br]ラベルを入力することにより
0:09:30.753,0:09:34.504
その時間を[br]有益に活用しているのです
0:09:36.410,0:09:37.763
外れ値については
0:09:37.763,0:09:44.510
コミュニティーが[br]その仕事が最も役立つ場を見つけられるよう
0:09:44.510,0:09:48.202
私たちが協力できるところだと思います
0:09:49.312,0:09:52.663
総合的には[br]この分析結果に満足しています
0:09:54.823,0:09:59.844
ウィキデータの項目とプロパティを[br]ご説明しました
0:10:00.714,0:10:03.033
次に皆さんの言語でのやりとりを[br]見ていきましょう
0:10:03.033,0:10:05.203
ウィキデータの語彙素です
0:10:05.203,0:10:09.394
ここで語彙、語形、語義を表します
0:10:10.167,0:10:13.008
去年の5月からこれを行っていて
0:10:16.461,0:10:18.782
コンテンツは増加してきています
0:10:20.114,0:10:22.279
こちらの青が語彙素で
0:10:22.279,0:10:25.938
赤が語彙素における語形
0:10:25.938,0:10:29.910
黄色が語彙素における[br]語義を示しています
0:10:30.991,0:10:34.451
後でも取り上げますが[br]コミュニティーの一部は
0:10:34.451,0:10:39.793
語彙素の語形や語義の作成に[br]たくさんの時間を費やしています
0:10:39.793,0:10:42.753
これは有益です
0:10:42.753,0:10:47.765
皆さんが必要なデータセットの中核が[br]構築されるからです
0:10:50.562,0:10:57.466
次に ウィキデータに語彙素がある[br]すべての言語を見てみました
0:10:57.906,0:11:01.003
つまりウィキデータにある[br]言語の数です
0:11:01.713,0:11:04.404
現在 言語の数は310です
0:11:04.884,0:11:08.290
では ウィキデータの[br]現在の語彙素数に関しては
0:11:08.290,0:11:11.949
何語が第1位だと思いますか
0:11:12.933,0:11:15.042
(聴衆)ロシア語[br][聞き取り不能]
0:11:19.183,0:11:20.216
何ですって?
0:11:20.216,0:11:21.741
(聴衆2)ドイツ語
0:11:21.741,0:11:23.642
先ほど聞こえてきたように
0:11:24.252,0:11:25.315
ロシア語です
0:11:28.011,0:11:29.754
ロシア語が抜きん出ています
0:11:31.897,0:11:33.710
相対感が分かるように[br]ご説明しますと
0:11:35.652,0:11:37.856
異なる意見はありますが
0:11:38.026,0:11:44.672
例えば 別の言語で[br]千から3千語で会話レベル
0:11:44.672,0:11:49.461
4千から1万語で[br]上級レベルに達するそうです
0:11:51.591,0:11:55.282
ですからまだ[br]そこまでのレベルには達していません
0:11:58.483,0:12:02.779
1つ注目していただきたいのは[br]ここのバスク語で
0:12:03.279,0:12:07.744
約1万の語彙素があります
0:12:09.244,0:12:13.003
次に こうした語彙素に対する[br]語形の数を見てみると
0:12:14.163,0:12:16.497
バスク語が[br]かなり上位にあります
0:12:18.257,0:12:20.006
これはすごいですよね
0:12:20.006,0:12:24.930
この理由を説明する講演にも[br]ぜひご参加ください
0:12:27.121,0:12:30.779
次に 言葉の意味に当たる[br]語義の数を見てみると
0:12:32.015,0:12:34.624
バスク語がなんとリストの第1位です
0:12:34.961,0:12:36.781
これは拍手に値すると思います
0:12:37.102,0:12:38.921
(拍手)
0:12:45.678,0:12:46.899
皆さんに別の質問です
0:12:47.118,0:12:50.181
現在 最も翻訳されている[br]語彙素は何でしょうか
0:12:50.651,0:12:55.414
(聴衆)ネコ[br]ダグラス・アダムス[聞き取り不能]
0:12:56.766,0:13:00.014
すべて良い推測ですが 違います
0:13:01.012,0:13:04.137
これです[br]ロシア語の「水」です
0:13:09.571,0:13:16.253
ウィキデータにある語彙素や語形や語義の[br]数についてはお話しましたが
0:13:16.412,0:13:21.501
それは必要なことの1つで[br]他に必要なのは
0:13:21.515,0:13:24.985
こうした語彙素や語形や意味を
0:13:24.985,0:13:27.090
機械に読める方法で[br]表現することです
0:13:27.647,0:13:30.039
それには 文が必要で[br]項目はその一例です
0:13:31.479,0:13:36.362
使用するプロパティの1つは[br]文例です
0:13:36.362,0:13:38.582
これで データを使用している誰もが
0:13:38.582,0:13:42.037
文脈に応じて[br]その言葉の使い方を理解できます
0:13:42.037,0:13:44.158
例えば 引用などが考えらます
0:13:45.396,0:13:47.113
ここではポーランド語が第1位です
0:13:47.900,0:13:49.814
ポーランド語話者の方々[br]頑張りましたね
0:13:54.219,0:13:57.680
もう1つ役立つプロパティは[br]IPA(発音記号)です
0:13:57.680,0:13:59.967
語彙の発音の仕方です
0:14:00.876,0:14:07.497
ロシア語は IPA文を[br]たくさん必要としていますね
0:14:10.419,0:14:13.314
ですがここでも[br]ポーランド語が第2位です
0:14:17.148,0:14:20.753
ウィキデータには[br]音声データもあります
0:14:20.758,0:14:25.583
発せられた言葉を収めた[br]ファイルへのリンクがコモンズにあるので
0:14:25.959,0:14:28.630
発音記号を読めない場合などに
0:14:28.630,0:14:32.871
ネイティブ スピーカーの[br]発音を聞くことができます
0:14:34.959,0:14:36.765
またウィキベースを動力とする
0:14:36.765,0:14:40.474
Lingua Libreという[br]プロジェクトがあります
0:14:40.884,0:14:45.173
ご自分の言語での[br]言葉の録音に協力して
0:14:45.173,0:14:47.836
ウィキデータの語彙素へ追加すると
0:14:48.446,0:14:52.103
他の人がその言葉の[br]発音の仕方を理解できます
0:14:53.663,0:14:55.694
(聴衆2)[聞き取り不能]
0:14:55.694,0:14:57.703
「Lingua Libre」と検索すると
0:14:57.703,0:15:00.981
テレグラムに[br]誰かがそれを投稿してくれるはずです
0:15:03.138,0:15:04.621
彼らは素晴らしく
0:15:04.621,0:15:06.726
ウィキベースで[br]優れた仕事をしています
0:15:12.706,0:15:17.285
次に知りたいのは[br]将来の展望です
0:15:19.165,0:15:22.010
お見せしたデータに基づくと
0:15:23.030,0:15:25.172
ウィキデータの言語を見ると
0:15:25.172,0:15:28.430
もっと多くの人に 豊富な知識への[br]アクセスを提供しようと
0:15:28.430,0:15:31.240
長い道のりをここまで来ました
0:15:32.530,0:15:36.392
ですが この先にも[br]たくさんの仕事が控えています
0:15:38.992,0:15:42.341
例えば 皆さんが協力できることとして
0:15:42.341,0:15:46.255
マラソンのように[br]皆で集まって一斉に
0:15:46.255,0:15:50.124
ウィキデータで[br]項目にラベル付けをするとか
0:15:50.914,0:15:55.121
皆さんの言語の[br]語彙素を編集して
0:15:55.121,0:15:59.212
最も利用されている言葉を皆さんの言語で[br]ウィキデータに収めるようなことです
0:16:00.773,0:16:03.285
またはTerminatorのような[br]ツールを使用して
0:16:03.285,0:16:08.120
皆さんの言語で[br]まだラベルが付いていない
0:16:08.120,0:16:11.529
最重要項目を[br]見つけてもいいでしょう
0:16:13.274,0:16:16.666
重要度を測るには
0:16:16.666,0:16:20.940
文中のリンクのような[br]他のウィキデータの項目における
0:16:20.940,0:16:22.349
利用頻度によります
0:16:25.768,0:16:30.022
もちろん 語彙素に関しては
0:16:31.342,0:16:35.169
現在 基本的な語彙素は[br]カバーしていますので
0:16:35.169,0:16:41.132
今後 大事なのは[br]開発とさらなる文の追加です
0:16:41.132,0:16:44.467
しっかりとした基礎を築いて
0:16:44.467,0:16:47.421
その上に有意義な[br]アプリケーションを開発することです
0:16:48.141,0:16:50.768
その臨界点には近付いてはいても
0:16:50.768,0:16:56.410
基礎の上に本格的なアプリケーションを[br]開発できる所までは到達していないからです
0:16:58.277,0:17:01.520
皆さんにその仕事に[br]ご参加いただければと思います
0:17:02.583,0:17:09.405
ここでちょっと[br]友人から協力してもらいましょう
0:17:09.843,0:17:12.493
ブリューノ[br]こちらへご登壇を
0:17:13.882,0:17:16.744
Lexicon Mask[br](辞書マスク)のお話をどうぞ
0:17:16.881,0:17:19.036
(ブリューノ)ありがとう リディア
0:17:19.036,0:17:22.519
Googleでの仕事をお伝えする[br]時間をいただきまして
0:17:22.519,0:17:24.150
ありがとうございます
0:17:24.150,0:17:29.275
デニーのことは[br]ご存知の方も多いでしょう
0:17:30.126,0:17:32.030
Googleで[br]私は言語学者ですから
0:17:32.030,0:17:36.150
言語に熱意のある方々に囲まれ[br]うれしく思います
0:17:36.620,0:17:39.278
私たちは[br]辞書を開発しています
0:17:39.278,0:17:45.346
また皆さんに役立つテクノロジーや[br]アプローチを開発しています
0:17:46.369,0:17:48.455
背景を少々お伝えしますと
0:17:48.455,0:17:51.907
これがここでお話している[br]辞書編集の背景です
0:17:52.788,0:17:54.977
辞書データベースを開発した際に
0:17:54.977,0:17:56.662
恐らくご存知のように
0:17:56.662,0:18:01.775
データの維持や一貫性の保持や交換に[br]悪銭苦闘しました
0:18:02.074,0:18:05.959
語彙素や語形を表している
0:18:05.959,0:18:09.184
特性やプロパティをまとめようと[br]何度も試み
0:18:09.184,0:18:10.936
完全には解決していませんが
0:18:10.936,0:18:13.592
その面でいくらか統一されています
0:18:13.742,0:18:15.269
ですが不足していたのは―
0:18:15.269,0:18:18.732
これはGoogleでのプロジェクト[br]開始時から抱えていた課題ですが
0:18:18.732,0:18:21.517
内部構造を持つ努力でした
0:18:22.197,0:18:25.910
しかるべき語彙記載項や
0:18:25.910,0:18:28.581
データの種類や[br]所有情報の種類や
0:18:28.581,0:18:32.237
予期される規定などを[br]表す内部構造です
0:18:32.237,0:18:38.187
そこで Lexicon Mask[br]というものを考案しました
0:18:38.897,0:18:44.841
Lexicon Maskが表すのは[br]エントリに予期される内容で
0:18:44.841,0:18:47.329
完了予定の[br]辞書編集エントリです
0:18:47.329,0:18:51.436
これには[br]語彙に予期される語形の数と
0:18:51.436,0:18:55.607
各語形に予期される特性の数の[br]双方が含まれます
0:18:56.397,0:18:58.329
これはイタリア語の形容詞の例です
0:18:58.329,0:19:02.002
イタリア語では 形容詞に対して[br]4つの語形が予期されます
0:19:02.002,0:19:04.493
性や数の特性に関して
0:19:04.493,0:19:07.946
各語形に特別な組み合わせがあります
0:19:08.606,0:19:12.672
これがイタリア語の形容詞に[br]予期されることです
0:19:12.672,0:19:16.176
もちろん 極めて複雑な[br]マスクになる可能性もあります
0:19:16.176,0:19:20.783
例えば フランス語の動詞活用は[br]かなり広範囲です
0:19:20.783,0:19:23.487
ロシアのマスクは[br]画面に収まらないので
0:19:23.487,0:19:25.378
今は表示されていません
0:19:26.308,0:19:29.531
詳細規定もあります
0:19:29.531,0:19:33.421
語形レベルで識別するからです
0:19:33.421,0:19:35.036
これはロシア語の名詞で
0:19:35.036,0:19:40.048
異なる語形での[br]事例数が3つありますが
0:19:40.048,0:19:43.086
エントリレベルの規定もあって
0:19:43.086,0:19:45.590
特に名詞に
0:19:45.590,0:19:50.133
固有の性と[br]固有の有生性の特性があり
0:19:50.133,0:19:52.488
これもマスクの中で規定されています
0:19:54.518,0:20:00.099
また マスクが一般的に[br]しかるべきエントリに与える規定を
0:20:00.099,0:20:01.874
識別することが必要ですが
0:20:01.874,0:20:07.158
言語に発生する[br]語形や語彙の欠如のため
0:20:07.158,0:20:11.282
より小さなマスクになる[br]可能性もあります
0:20:11.282,0:20:14.537
これがフランス語の動詞の[br]最もシンプルなバージョンで
0:20:14.537,0:20:18.535
例えば「雨が降る」[br]「雪が降る」のような
0:20:18.535,0:20:23.969
天候に関する動詞すべてに[br]三人称単数があるだけです
0:20:24.537,0:20:26.743
ですからこれら2つのレベルを識別します
0:20:26.923,0:20:29.962
Googleでこれを使用する方法は
0:20:29.962,0:20:32.643
使いたい辞書がある場合
0:20:33.063,0:20:38.309
文字通りマスクを[br]辞書に投げて
0:20:38.309,0:20:40.163
すべてのエントリを[br]マスクを通して
0:20:40.163,0:20:44.303
どのエントリに[br]構造的問題があるか
0:20:44.303,0:20:46.523
語形や特性が[br]不足しているのかを見ます
0:20:46.523,0:20:51.497
問題があれば[br]人が検証を行うか
0:20:51.497,0:20:53.751
マスクを通過するかを見ます
0:20:53.751,0:20:57.924
ですから 構造の品質管理には[br]非常に有益なツールです
0:20:59.427,0:21:01.964
今日発表いたしますのは
0:21:01.964,0:21:05.408
私たちのマスクの[br]オープンソース化です
0:21:05.948,0:21:07.573
これがスキーマです
0:21:07.573,0:21:09.477
ご希望があれば[br]公開して
0:21:09.477,0:21:13.483
ShExファイルとして[br]ウィキデータに提供します
0:21:13.483,0:21:16.688
これがドイツ語名詞に対する[br]ShExファイルです
0:21:16.688,0:21:21.058
内部仕様からオープンソース仕様への[br]コンバージョンに
0:21:21.058,0:21:23.350
デニーが取り組んでいます
0:21:23.666,0:21:27.265
現在 25言語超をカバーしています
0:21:27.265,0:21:30.199
ウィキデータの発展を[br]期待しているだけでなく
0:21:30.199,0:21:34.350
他の言語に対する[br]協働の機会を求めてもいます
0:21:34.350,0:21:40.728
ダニーがルーカスと進行中の[br]コラボレーションの1つは
0:21:40.728,0:21:45.052
ルーカスが持つ優れたツールで
0:21:45.052,0:21:51.061
UIのヘルプで ユーザーや貢献者に[br]語形を追加してもらうものです
0:21:51.061,0:21:54.151
フランス語で[br]形容詞を追加したい場合
0:21:54.151,0:21:59.057
UIが予期される語形の数と
0:21:59.057,0:22:01.562
語形がどんな特性を持つはずかを[br]教えてくれます
0:22:01.562,0:22:06.268
ですから私たちのマスクが[br]定義と拡張に役立ちます
0:22:07.238,0:22:08.385
以上です
0:22:08.731,0:22:10.298
(リディア)ありがとう
0:22:10.358,0:22:11.993
(拍手)
0:22:14.249,0:22:16.761
ご質問はありますか?
0:22:16.891,0:22:19.381
語彙素について[br]詳しく知りたいですか
0:22:19.817,0:22:22.505
- (聴衆3)知りたいです[br]- 分かりました(笑)
0:22:33.485,0:22:34.750
(聴衆3)私の質問は
0:22:34.750,0:22:39.106
もっと多くの言語で もっと多くの人に[br]利用できるようにすると仰いましたが
0:22:39.106,0:22:42.444
ウィキデータで使用できない言語は[br]たくさんあります
0:22:42.444,0:22:44.246
ウィキデータとしての解決策は?
0:22:45.889,0:22:47.686
ウィキデータで[br]使用できないというのは
0:22:47.686,0:22:50.308
ラベルの記載のお話ですか?
0:22:50.308,0:22:52.578
- (聴衆3)ラベルや説明です[br]- ええ
0:22:52.578,0:22:55.498
語彙素に対しては[br]少し異なります
0:22:55.498,0:22:57.793
語彙素には[br]その制限がないからです
0:22:58.923,0:23:05.003
項目やプロパティのラベルには[br]いくらか制限があります
0:23:05.433,0:23:08.496
ウィキデータでは
0:23:08.496,0:23:14.229
誰もがすべてを行えるようには[br]していないからです
0:23:14.229,0:23:17.769
そうすると[br]管理が難しくなってしまいます
0:23:19.349,0:23:23.328
1つの言語に取り組みたい[br]小さなコミュニティーであっても
0:23:23.898,0:23:26.693
ご要望いただければ[br]実現させます
0:23:26.693,0:23:29.292
(聴衆3)5月にプラハの[br]ハッカソンで要望しましたが
0:23:29.292,0:23:32.459
私たちの言語を使えるようになるには[br]8月にまでかかりました
0:23:32.459,0:23:35.135
- ええ[br]- (聴衆3)遅いのです
0:23:35.135,0:23:37.274
あいにく時間がかかります
0:23:37.854,0:23:39.883
現在 言語委員会と
0:23:39.883,0:23:46.048
基本部分の解決に取り組んでいます
0:23:49.537,0:23:55.447
どの言語が実際「許可」されるか[br]について同意を得るのは
0:23:56.047,0:23:59.398
非常に時間がかかっています
0:23:59.988,0:24:04.178
これがご要望に対して[br]必要以上に時間がかかった理由です
0:24:04.778,0:24:05.963
(聴衆3)ありがとう
0:24:06.815,0:24:07.950
(聴衆4)ありがとう
0:24:07.950,0:24:10.938
リディア [br]見せていただいた統計に
0:24:10.938,0:24:12.886
言語ごとの語彙素の数がありましたが
0:24:12.886,0:24:17.599
データポイントとして[br]すべての語形を合計したんでしょうか
0:24:17.599,0:24:20.034
それとも語彙素だけですか
0:24:21.289,0:24:22.941
(リディア)これですか
0:24:22.941,0:24:24.053
どれですか
0:24:24.053,0:24:25.529
(聴衆4)それです
0:24:25.797,0:24:28.341
この数は[聞き取り不能]
0:24:28.341,0:24:31.954
すべての語彙素に対するすべての語形ですか[br]存在する語彙素の数ですか
0:24:31.954,0:24:35.395
- これは単に語彙素数の数です[br]- (聴衆4)そうですか
0:24:35.395,0:24:36.797
では単なる統計値ですね
0:24:36.797,0:24:39.390
もし語形から成るものだったら...
0:24:39.390,0:24:40.614
それが質問の理由です
0:24:40.614,0:24:42.817
屈折形態を伴うすべての言語―
0:24:42.817,0:24:45.117
例えばロシア語やセルビア語[br]スロベニア語などには
0:24:45.117,0:24:47.616
語形が数多くあることになるので[br]元から有利です
0:24:47.616,0:24:51.990
それがここの語形数に[br]影響しています
0:24:51.990,0:24:53.851
(聴衆4)分かりました[br]ありがとう
0:24:56.546,0:25:00.224
(聴衆5)簡単な質問ですが
0:25:00.644,0:25:06.824
実際の項目とプロパティに関し
0:25:07.124,0:25:08.901
私が理解している限りでは
0:25:08.901,0:25:11.948
与えられた[br]どのラベルや説明にも
0:25:11.955,0:25:15.794
現在 実際のソースを[br]提供する方法はないんですよね
0:25:15.807,0:25:20.920
例えば 項目のプロパティの場合
0:25:20.920,0:25:24.509
相反するラベルが得られるかもしれない
0:25:24.509,0:25:25.739
そうです
0:25:28.402,0:25:30.781
先ほど 固有性というお話がありましたが
0:25:30.781,0:25:35.965
例えば 芸術家が あるソースによれば[br]ノルウェー人であり
0:25:35.965,0:25:38.750
別のソースによれば[br]サーミ人であるとか
0:25:39.550,0:25:41.741
エストニア人であったりします
0:25:42.593,0:25:49.259
公式の辞書の中でその言葉を[br]公式の用語に変える必要がありましたが
0:25:49.482,0:25:52.262
理由を示す方法がありません
0:25:52.262,0:25:53.596
このソースは何だったかとか
0:25:53.596,0:25:55.561
変更理由とか[br]以前の内容などを示せません
0:25:55.561,0:25:59.615
誰かが理由もなく[br]変更したように見えてしまいます
0:25:59.615,0:26:03.350
言語データに対して[br]適切なソースを持てるように
0:26:03.350,0:26:06.355
これを変更する計画はありますか?
0:26:07.045,0:26:11.468
それは部分的に可能です
0:26:11.568,0:26:15.958
例えば 人物に対する項目があって
0:26:16.968,0:26:22.720
その人物に関する[br]文や氏名などが続きます
0:26:22.720,0:26:26.226
そこで出典を付けることができます
0:26:28.211,0:26:32.264
ラベルや説明の出典を
0:26:32.264,0:26:35.557
今より複雑にするのは避けたいですが
0:26:35.557,0:26:41.252
これは 文上のどの出典によっても[br]取り上げられていないと
0:26:41.252,0:26:44.939
人々が強く希望するのであれば
0:26:44.939,0:26:46.803
議論の余地はあります
0:26:49.079,0:26:53.303
ですが 数少ないであろう事例のために
0:26:53.303,0:26:56.523
複雑になってしまうのが心配です
0:26:57.393,0:27:00.188
皆さんが強く望まれるものなら
0:27:00.188,0:27:04.087
喜んでそうしたいのですが
0:27:04.087,0:27:08.177
(聴衆5)追加されるのであれば[br]デフォルトではなく
0:27:08.177,0:27:12.452
初心者などには表示されない[br]インターフェースにして
0:27:12.452,0:27:16.190
「詳細を追加するなら ここをクリック」[br]などとするといいでしょう
0:27:17.632,0:27:23.368
実際 問題になりうる頻度はどうでしょう
0:27:24.520,0:27:26.423
(聴衆5)エストニア語では[br]例えば―
0:27:26.423,0:27:28.844
これは他の言語にも[br]当てはまると思いますが
0:27:29.274,0:27:35.510
例えば 正規に英語に翻訳されている
0:27:36.206,0:27:40.314
特定の行政区の公式名があって
0:27:40.324,0:27:42.182
それが私のユースケースでした
0:27:42.182,0:27:44.409
かつて「parish」という[br]言葉を使っていて
0:27:45.159,0:27:50.628
それが元のエストニア語の言葉では[br]教会区というような意味であり
0:27:50.628,0:27:51.899
それが由来でしたが
0:27:51.899,0:27:54.809
それは現在エストニア語で[br]公式の翻訳ではありません
0:27:55.189,0:27:58.993
そのケースでは[br]公式名を文に追加して
0:27:58.993,0:28:00.817
出典もそこに追加できます
0:28:01.992,0:28:03.218
(聴衆5)分かりました
0:28:05.186,0:28:06.572
他にご質問は?
0:28:07.682,0:28:10.044
(聴衆6)意見が2つあります
0:28:10.044,0:28:13.934
良い成績の言語として[br]アストゥリアス語を特に挙げられましたが
0:28:13.934,0:28:16.455
誤ったアーティファクトだと思います
0:28:16.455,0:28:17.724
教えてください
0:28:17.724,0:28:19.748
(聴衆6)それはボットが
0:28:19.748,0:28:24.068
人名や固有名詞を[br]貼り付けたものだと思います
0:28:24.068,0:28:27.172
「フランス語やスペイン語でも[br]まったく同じ」と言うように
0:28:27.172,0:28:28.558
ただ大量にコピーしたんです
0:28:28.558,0:28:31.766
証拠の1つに[br]アストゥリアス語で
0:28:31.766,0:28:35.440
固有名詞以外の[br]プロパティ名や項目名などで
0:28:35.440,0:28:39.216
翻訳を必要としている取り組みは[br]あまり見られません
0:28:39.648,0:28:41.142
心が痛みます
0:28:41.142,0:28:43.538
(聴衆6)分かります[br]水を差してしまいましたよね
0:28:43.538,0:28:48.458
でも 良いこともあります[br]発音の数です
0:28:49.408,0:28:53.515
恐らくご存知のように[br]コモンズは発音のファイルがいっぱいで
0:28:53.515,0:28:54.668
例えば
0:28:54.668,0:29:01.102
オランダ語はコモンズにすでに[br]30万以上の発音のファイルがあり
0:29:01.912,0:29:05.051
方法はどうあれ[br]取り込まれる必要があるだけです
0:29:05.051,0:29:07.697
サイドプロジェクトを[br]探している方がいれば
0:29:07.697,0:29:08.997
大量に
0:29:08.997,0:29:13.280
分類された発音のファイルが[br]コモンズの
0:29:13.280,0:29:16.893
「Pronunciation(発音)」[br]項目に言語別にあり
0:29:16.893,0:29:22.840
語彙素との一致と語彙素への掲載を[br]ただ待っている状態です
0:29:23.180,0:29:26.574
ロードマップについて[br]言えることはありますか
0:29:26.585,0:29:28.757
投資額とか
0:29:28.757,0:29:31.995
来たる年に[br]語彙素から期待できることなど
0:29:31.995,0:29:34.020
私も待ちきれない一人ですから
0:29:34.949,0:29:37.044
待ちきれないですか?(笑)
0:29:37.044,0:29:39.198
- (聴衆6)期待してます[br]- はい(笑)
0:29:44.541,0:29:49.523
現在は ウィキベースと[br]データの質のほうに力を入れて
0:29:51.493,0:29:55.087
これがどれだけ[br]けん引力を得られるか見ています
0:29:55.087,0:30:01.676
その次に 解決が難しい[br]問題に取り組み
0:30:01.676,0:30:06.003
その後 辞書学データの[br]さらなる改善に戻る予定です
0:30:06.903,0:30:09.790
あなたにお聞きしたいことの1つは
0:30:09.790,0:30:14.136
次のステップとなる箇所と
0:30:14.136,0:30:15.966
改善点を見たい箇所です
0:30:15.966,0:30:20.340
そうすれば[br]実現の方法を考えます
0:30:21.125,0:30:22.810
もちろん仰ることは正しく
0:30:22.810,0:30:25.712
技術面での仕事は[br]まだたくさんあります
0:30:30.573,0:30:35.848
(聴衆7)バスク語の言葉を[br]語形と一緒にアップロードしていた際に
0:30:35.848,0:30:37.768
こんなことがありました
0:30:37.768,0:30:41.329
先週 私たち二人とも[br]自分たちが初だと言っていたら
0:30:42.919,0:30:44.928
報道されて
0:30:44.928,0:30:49.488
「バスク語で初の業績―[br]彼らが初の何かを」と
0:30:49.488,0:30:50.606
(笑)
0:30:50.606,0:30:53.318
そしてこれは何のためかと[br]聞かれたんです
0:30:54.678,0:30:56.849
私たちには[br]良い答えがありませんでした
0:30:56.849,0:30:57.888
これによって
0:30:57.888,0:31:01.841
コンピュータが私たちの言語を[br]理解しやすくなるのは分かりますが
0:31:01.841,0:31:05.279
将来 どんなツールを[br]開発できるでしょうか
0:31:05.279,0:31:07.467
私には分かりませんが
0:31:07.467,0:31:10.625
これに対する[br]良い答えをお持ちでしょうか
0:31:10.625,0:31:12.742
(笑)私に良い答えがあるか[br]分かりませんが
0:31:12.742,0:31:14.746
答えはあります
0:31:15.480,0:31:20.425
現在は 先ほどお伝えしたように
0:31:20.425,0:31:23.504
数々の興味深いツールを[br]開発できるような
0:31:23.504,0:31:25.529
臨界点には達していません
0:31:25.529,0:31:27.707
でもすでに[br]ツールはいくつかあります
0:31:28.267,0:31:31.912
例えば つい先日[br]エスター・パンデリアが
0:31:31.912,0:31:33.817
ツールをリリースしました
0:31:35.837,0:31:38.259
それは世界の言語が
0:31:38.259,0:31:41.901
どこで話され どこから来ているか[br]分かるものです
0:31:42.631,0:31:44.090
確かではありませんが
0:31:44.090,0:31:46.726
ウィキデータのプロジェクトチャット上で[br]公表されました
0:31:46.726,0:31:48.984
お調べいただけます
0:31:49.574,0:31:53.527
ウィキペディア開始時に[br]見ていたように
0:31:53.527,0:31:55.696
最初のツールを見ています
0:31:56.846,0:31:59.602
最初は...[br]ネットワークと同様
0:31:59.602,0:32:03.424
徐々に繋がりが明らかになります
0:32:04.824,0:32:07.059
データが増えるにつれ
0:32:07.059,0:32:10.352
臨界に達して
0:32:11.852,0:32:14.747
性能の良い[br]アプリケーションが可能になります
0:32:15.677,0:32:17.516
例えば ヒストロペディアや
0:32:19.126,0:32:23.746
携帯端末での質疑応答や
0:32:23.746,0:32:26.663
Platypusなどのようなものです
0:32:26.663,0:32:29.668
語彙素でも[br]同様のものを見ています
0:32:31.198,0:32:34.650
このようなものを[br]開発できる段階には来ていて
0:32:34.650,0:32:37.464
関連性も分かっていて
0:32:37.864,0:32:42.738
別の言語へ[br]言葉を翻訳できる段階なので
0:32:42.738,0:32:47.747
開発につれ[br]より多くの言葉を表すにつれ
0:32:47.747,0:32:49.533
たくさんのことが可能になります
0:32:49.533,0:32:51.795
何が可能になるかというと
0:32:53.482,0:32:59.483
基調講演でベンが[br]翻訳についてお話したように
0:33:00.103,0:33:03.455
1つの言語から別の言語へ[br]翻訳できます
0:33:03.486,0:33:07.929
また同僚のイェンスが[br]いつも言うことには
0:33:07.929,0:33:11.452
欧州連合が[br]翻訳者を求めているそうで
0:33:11.452,0:33:17.439
マルタ語から[br]スウェーデン語へ翻訳できる―
0:33:17.439,0:33:19.436
- (聴衆8)エストニア語です[br]- 失礼
0:33:22.016,0:33:26.211
あまりない組み合わせですね
0:33:27.211,0:33:31.735
こうした言語がすべて[br]機械で読める1か所の場所にあれば
0:33:31.735,0:33:33.143
翻訳できるのです
0:33:33.143,0:33:36.857
エストニア語からマルタ語へ[br]またはその逆でも翻訳できる
0:33:36.857,0:33:41.735
辞書が手に入るのです
0:33:42.935,0:33:45.607
今までは 例えばコストの面から[br]作業を正当化できるほど
0:33:45.607,0:33:47.911
十分な需要がなかったため
0:33:47.911,0:33:51.050
これまで辞書でカバーされていなかった
0:33:51.050,0:33:55.540
言語の組み合わせがあったわけですが
0:33:55.540,0:33:57.147
それが今は行えます
0:33:59.797,0:34:02.318
それと テキスト生成です
0:34:02.318,0:34:04.259
ルーシーが先ほど
0:34:04.259,0:34:06.226
テキスト生成に関して
0:34:06.226,0:34:10.136
少数言語で[br]ウィキペディアの記事を開始するため
0:34:10.136,0:34:14.673
ハッティとどのように[br]取り組んでいるかをお話しました
0:34:15.423,0:34:19.512
それには 言葉に関するデータが必要で
0:34:19.512,0:34:22.589
そのためには その言語について[br]理解する必要があります
0:34:23.769,0:34:28.133
そうしたことが[br]今私に浮かんだアイデアです
0:34:28.693,0:34:31.254
その壮大なデータが得られた場合[br]何をしたいか
0:34:31.254,0:34:34.353
皆さんには もっとアイデアが[br]あるかもしれませんね
0:34:37.693,0:34:40.892
(聴衆9)語彙素のトピックから[br]外れますが
0:34:40.892,0:34:42.666
質問させてください
0:34:42.666,0:34:46.754
コミュニティーの一員として[br]仕事の優先順位に
0:34:46.754,0:34:50.135
私はどう影響を与えられるでしょうか
0:34:50.144,0:34:54.593
新規ユーザーが[br]秘密の合言葉なしに
0:34:54.593,0:35:01.135
編集したい言語を[br]示せるようにできるのでしょうか
0:35:02.145,0:35:04.264
ウィキペディアのトピックなしの
0:35:04.264,0:35:07.040
技術的要望リストがいつの日か[br]訪れるかも知れません
0:35:07.040,0:35:10.119
7年間放置されていたことが
0:35:10.119,0:35:14.218
全員一致の意見で直すことに[br]なるかも知れません
0:35:14.218,0:35:17.607
これについて[br]お考えやご意見は?
0:35:18.217,0:35:20.328
仰っているのは
0:35:20.328,0:35:23.518
ウィキデータに[br]ログインしていない人が
0:35:23.518,0:35:25.971
簡単に言語を変更できないという[br]問題ですか?
0:35:25.971,0:35:28.132
(聴衆9)いいえ[br]新規ユーザーです
0:35:28.132,0:35:30.689
新規ユーザーが[br]ログインしていれば
0:35:30.689,0:35:34.871
ページ上部で[br]言語を変更できますし
0:35:35.891,0:35:39.769
ラベルの説明が[br][聞き取り不能]場所に
0:35:39.769,0:35:42.013
それが表示され
0:35:42.013,0:35:43.483
編集できます
0:35:45.657,0:35:49.009
(聴衆9)大抵の[br]ワークフローでは
0:35:49.009,0:35:52.447
複数の言語を望めば[br]利用できますが
0:35:52.447,0:35:55.419
いつもそうとは限りません
0:35:55.419,0:35:58.584
この講演の後に[br]詳しく伺いましょう
0:36:01.562,0:36:04.089
いいですね[br]他にご質問は?
0:36:05.534,0:36:06.536
どうぞ
0:36:11.595,0:36:13.196
(聴衆10)良いプレゼンでした
0:36:14.257,0:36:18.091
ウィクショナリーのコミュニティーとの[br]相互関係の状態について
0:36:18.091,0:36:19.307
ご意見をください
0:36:19.307,0:36:20.956
私が見ている限り
0:36:20.956,0:36:26.051
作業の重要な要素のインポートについて[br]議論がありますが
0:36:26.051,0:36:30.843
ライセンスの問題や[br]異論などがあるようです
0:36:30.843,0:36:31.848
はい
0:36:31.848,0:36:34.520
ウィクショナリーのコミュニティーは
0:36:34.520,0:36:39.473
ウィクショナリー開発に[br]長い時間をかけてきています
0:36:39.533,0:36:42.774
彼らが開発してきた
0:36:42.774,0:36:47.554
驚くほど難しく複雑な[br]テンプレートは
0:36:47.554,0:36:53.614
きれいな表を作成して[br]フォームを自動生成してくれたり
0:36:53.614,0:37:00.136
いろいろと素晴らしく[br]並外れたことをしてくれます
0:37:02.311,0:37:07.994
もちろん 彼らは多くの時間と努力を[br]費やしてきています
0:37:09.364,0:37:11.801
当然のことながら
0:37:11.801,0:37:18.786
ただそんな具合に[br]誰かの手に渡したくはないのです
0:37:19.102,0:37:21.791
ライセンスの問題は[br]そこから生じているものもあります
0:37:22.761,0:37:25.137
それでいいのです
0:37:25.737,0:37:31.262
最初のウィクショナリーの[br]コミュニティーが調整を行い
0:37:31.262,0:37:34.329
ウィキデータへデータを[br]インポートする話をしています
0:37:34.329,0:37:39.095
ご覧になったロシア語は[br]その一例で
0:37:40.375,0:37:42.355
これは今後も起こると思います
0:37:43.635,0:37:46.800
時間のかかるプロセスです
0:37:46.800,0:37:49.753
ウィキペディアへ[br]ウィキデータのデータを採用するのと同様
0:37:49.753,0:37:51.909
時間がかかります
0:37:52.849,0:37:58.625
語彙素データを[br]利用しやすくする一方で
0:37:58.632,0:38:02.269
ウィクショナリーでも[br]それを活用し
0:38:02.269,0:38:05.531
語彙素とウィクショナリー間で[br]データを共有できるようにするのは
0:38:05.531,0:38:08.853
現状では困難です
0:38:08.853,0:38:11.560
ウィキペディアであったように[br]とんでもないことです
0:38:13.860,0:38:16.325
誕生日プレゼントを[br]お待ちください(笑)
0:38:20.038,0:38:21.182
どうぞ
0:38:22.599,0:38:25.950
(聴衆11)ばかげているので[br]言いたくなかったのですが
0:38:25.950,0:38:28.168
逆の見方をしていました
0:38:28.168,0:38:32.003
ウィクショナリーに[br]すでにコンテンツがあっても
0:38:32.003,0:38:34.248
ライセンスで違いがあるため
0:38:34.248,0:38:37.048
ウィキデータに転送できないと[br]分かっていますが
0:38:37.048,0:38:39.631
それに対処できるのではと[br]考えていました
0:38:40.321,0:38:45.913
例えば コミュニティーの許可を得た後に
0:38:45.913,0:38:51.205
公開投票などを行い
0:38:52.075,0:38:56.601
コミュニティーに対しては[br]アクティブなメンバーが投票し
0:38:56.601,0:39:02.523
コンテンツ転送の[br]承認や可否について発言し
0:39:02.523,0:39:05.528
それに対し ウィキデータの語彙素に[br]取り組めばいいと思います
0:39:06.238,0:39:08.537
もったいないからです
0:39:09.568,0:39:14.961
それはまさにウィクショナリーの[br]コミュニティーにいる人たちが
0:39:14.961,0:39:18.249
快く議題として取り上げるお話です
0:39:18.249,0:39:24.647
私たちがそこで押し付けるのは[br]厚かましいですが
0:39:25.917,0:39:31.142
話し合うのは[br]確かに価値があると思います
0:39:31.142,0:39:34.972
ですが 法的に許可されることと
0:39:34.972,0:39:39.082
私たちがすべきことと
0:39:39.082,0:39:43.147
人々が望むこと[br]望まないことの間には
0:39:43.147,0:39:45.426
相違があると[br]理解するのも重要です
0:39:45.736,0:39:47.329
ですから 法的に許可されても
0:39:47.329,0:39:50.640
ウィクショナリーの[br]コミュニティーが望まなければ
0:39:50.640,0:39:53.537
少なくとも[br]気を付けたほうがいいでしょう
0:39:58.886,0:40:02.249
マイクをお持ちください
0:40:04.540,0:40:07.299
(聴衆12)すべて素晴らしいお話でした
0:40:07.979,0:40:12.319
すぐに思ったことは[br]私の生徒にどうやって伝えようかとか
0:40:12.319,0:40:15.558
課程にどう組み込もうかとか
0:40:15.558,0:40:18.531
私たちの仕事や[br]教育の場面などでした
0:40:18.531,0:40:24.116
私には 現時点で[br]まず十分な知識がありません
0:40:24.116,0:40:27.278
ですが 今あるドキュメンテーションは
0:40:27.808,0:40:30.082
改善の余地があると思います
0:40:30.082,0:40:31.947
そこでリクエストしたいのは
0:40:31.947,0:40:35.898
仕組みを説明してくれる動画です
0:40:35.898,0:40:39.948
それがあれば 活用できます
0:40:39.948,0:40:41.985
生徒に参加してもらったり
0:40:41.985,0:40:47.072
どれだけ素晴らしいかを[br]人々に理解してもらえます
0:40:47.072,0:40:52.001
ぜひドキュメンテーションと[br]教育についてお考えください
0:40:52.001,0:40:54.480
多くの成果が得られるはずです
0:40:54.480,0:40:58.585
たくさんの仕事を…
0:41:00.125,0:41:02.033
小中学校とは言いませんが
0:41:02.033,0:41:05.495
若い生徒たちに行ってもらえます
0:41:05.915,0:41:10.866
その可能性を[br]取り入れていただければと思います
0:41:10.866,0:41:15.272
現時点で 私は十分に理解していないので
0:41:15.272,0:41:22.155
タスクの作成や実用的な仕事が[br]できるわけではありません
0:41:22.155,0:41:25.772
どんな支援や意見についても[br]ここのどなたかがお持ちであれば
0:41:25.772,0:41:29.648
ご自身のご意見も含め[br]お聞かせいただければ
0:41:30.508,0:41:32.129
ええ 後ほどお話しましょう
0:41:35.473,0:41:37.139
他にご質問は?
0:41:37.809,0:41:39.195
先ほど挙手がありましたが
0:41:39.195,0:41:40.495
どなたでしょう
0:41:45.739,0:41:49.996
(発言者13)ウィクショナリーから[br]インポートできないなら
0:41:49.996,0:41:55.730
他のパブリック ドメインのソースや[br]あらゆるデータを見つけるための
0:41:55.730,0:41:57.459
協調努力はありますか
0:41:58.769,0:42:03.167
それを事前にフィルタリングしたり[br]整理したりすれば
0:42:03.167,0:42:08.470
人々が確認して[br]インポートしやすくなります
0:42:09.093,0:42:11.181
努力はあります
0:42:11.181,0:42:14.769
私の知る限り[br]バスク語がその努力の1つですが
0:42:14.769,0:42:17.474
それについて[br]仰りたいことがあればどうぞ
0:42:18.416,0:42:20.120
(聴衆14)[聞き取り不能]
0:42:23.166,0:42:27.148
解決策は[br]それに対する支払いです...
0:42:28.374,0:42:33.381
私たちには通常 一緒に仕事をしている[br]委託業者との契約があり
0:42:34.801,0:42:38.094
彼らが辞書関連の仕事をしています
0:42:38.755,0:42:42.458
他の業務に加えて[br]辞書関連の仕事をしています
0:42:42.458,0:42:47.473
私たちは業者と生徒向けの無料の[br]辞書を開発する契約をしており
0:42:47.473,0:42:50.499
最も一般的な言葉を[キャスト]し
0:42:50.499,0:42:55.590
外部識別子やスキーマと共に[br]アップロードするものです
0:42:56.420,0:43:02.902
それをパブリック ドメイン(CC0)に[br]することには議論がありました
0:43:03.012,0:43:05.792
CCを伴う辞書を[br]所有しているからです
0:43:06.977,0:43:10.011
彼らは相違点を理解していました
0:43:10.326,0:43:13.746
ですから 議論はありましたが
0:43:13.746,0:43:19.709
将来 私たちがツールや事例を[br]提供できると思いますし
0:43:19.709,0:43:23.781
私たちが扱える[br]他の辞書も予定されています
0:43:24.016,0:43:29.274
ウィクショナリーもその方向に[br]進み始めたほうがいいと思いますが
0:43:29.274,0:43:32.260
それはまた[br]別の大きな議論が必要でしょう
0:43:33.285,0:43:34.487
それに加えて
0:43:34.487,0:43:38.839
オクシタン語の辞書に取り組む[br]オクシタン出身の人々と
0:43:38.839,0:43:41.827
リーアが連携して
0:43:41.827,0:43:45.138
現在 シュメール語の[br]コラボレーションに取り組んでいます
0:43:51.644,0:43:53.363
他にご質問は?
0:44:01.487,0:44:05.349
(聴衆15)オクシタン語のデータを[br]インポートしたいのですが
0:44:05.349,0:44:06.585
いいタイミングですね
0:44:06.585,0:44:08.368
(聴衆15)少し問題があり
0:44:09.188,0:44:14.215
多様な語彙素のすべてを表す[br]方法が分かりません
0:44:14.215,0:44:17.893
私たちには6つの方言があり
0:44:17.893,0:44:24.014
どの方言が使われているかを[br]語彙素に示したいのです
0:44:24.014,0:44:27.285
でも それを行うのに[br]適切なC0文がありません
0:44:27.285,0:44:31.585
セグメントが存在しない限り
0:44:31.635,0:44:34.465
[聞き取り不能]ができません
0:44:34.465,0:44:37.603
文へエキスポートできるようになった時に
0:44:37.603,0:44:42.076
再度行う必要が出てくるからです
0:44:42.076,0:44:47.801
たくさんの人が依頼する[br]文ではないので 複雑です
0:44:47.802,0:44:53.054
大抵は少数言語に[br]関係する文だからです
0:44:53.444,0:44:56.933
依頼するのが一人だけのこともあります
0:44:56.933,0:45:00.022
ですが バスク語の同僚たちにとっては
0:45:00.022,0:45:06.082
一人でも 何千もの他の人に[br]力を与えられるかもしれません
0:45:06.082,0:45:10.884
ですから 依頼が多くなくても
0:45:10.884,0:45:14.136
重要なのです
0:45:14.874,0:45:17.600
新しいプロパティの提案は[br]済んでいますか?
0:45:17.600,0:45:19.470
それとも提案に協力が必要ですか?
0:45:21.524,0:45:24.300
(聴衆15)4か月前にお願いしました
0:45:24.720,0:45:28.755
では誰かにそのプロパティの提案に[br]協力してもらいましょう
0:45:30.159,0:45:33.092
この部屋に 実現してくれる人が[br]十分いるはずです
0:45:33.240,0:45:35.922
(聴衆15)プロパティ提案[br][フランス語]
0:45:36.105,0:45:39.699
回答がなく方法が分かりません
0:45:39.699,0:45:42.953
私たちはウィキデータの[br]コミュニティーには属していませんから
0:45:44.694,0:45:48.817
ええ ですから[br]ここに協力できる人たちがいます
0:45:48.817,0:45:52.134
ご協力いただける方は[br]手を挙げてください
0:45:52.234,0:45:53.684
(聴衆14)私がやります
0:45:53.684,0:45:55.512
語形の異形だけでなく
0:45:55.512,0:46:02.359
座標や何らかのマッピングで[br]それを地理的にも扱えるのが
0:46:02.359,0:46:04.747
とても興味深いです
0:46:05.595,0:46:07.815
異なる発音があるということも
0:46:07.815,0:46:11.837
たくさんの言語に[br]当てはまることだと思います
0:46:12.607,0:46:16.262
実現に向けて取り組むべきです
0:46:16.262,0:46:18.865
プロパティを検索します
0:46:19.782,0:46:20.933
いいですね
0:46:20.933,0:46:24.446
あなたのプロパティ提案に[br]サポートがあるはずです
0:46:26.136,0:46:27.297
ありがとうございます
0:46:28.153,0:46:30.261
他にご質問は?
0:46:32.410,0:46:33.474
フィン
0:46:33.974,0:46:37.515
フィンは辞書学データを基に[br]開発している者の一人です
0:46:38.031,0:46:40.085
(フィン)ちょっとした質問ですが
0:46:40.405,0:46:44.226
異なる綴りについてです
0:46:44.896,0:46:48.002
作業が難しいようです
0:46:48.532,0:46:53.368
もちろん 同じ言葉に[br]複数の語形がある場合はありますが
0:46:56.327,0:46:58.448
どうやら…
0:46:59.558,0:47:03.535
そうでなければ[br]規定が難しく
0:47:04.771,0:47:09.578
単に小さな技術面での問題なのか[br]分かりませんが
0:47:09.731,0:47:11.252
後で一緒に話しましょう
0:47:11.642,0:47:15.230
例を見てみたいです
0:47:17.478,0:47:18.478
アザーフ
0:47:26.886,0:47:28.396
(アザーフ)ありがとう
0:47:29.386,0:47:33.685
私の母国語ヘブライ語から[br]具体例を挙げますと
0:47:34.205,0:47:38.845
ヘブライ語には[br]ほぼすべての言葉の表現に
0:47:38.845,0:47:42.786
2つ主な異形があります
0:47:42.786,0:47:49.864
伝統的な綴りでは[br]多くの母音が除外されるからです
0:47:50.934,0:47:55.049
ですから 聖書や詩の現代版では
0:47:55.207,0:47:56.991
付加記号が使われています
0:47:57.461,0:48:00.166
しかしながら[br]こうした付加記号は
0:48:00.166,0:48:04.074
現代の散文や新聞記事や[br]道路標識などでは
0:48:04.074,0:48:05.974
全く使われていません
0:48:05.974,0:48:11.209
ですから 平均的な[br]日常のカジュアルな使用では母音を加え
0:48:12.169,0:48:13.519
付加記号を使いません
0:48:13.519,0:48:15.310
より面倒なことになり
0:48:15.310,0:48:18.033
いろいろな規則があるものの[br]誰も理解していないからです
0:48:18.633,0:48:20.531
ですから 2つの異形があって
0:48:20.531,0:48:25.322
日常のカジュアルな散文で[br]使われるものと
0:48:25.322,0:48:30.307
常に伝統的な[br]記号が付加された文章で現れる
0:48:30.307,0:48:32.200
聖書や詩で使われるものです
0:48:32.200,0:48:33.772
語彙素が役立つには
0:48:33.772,0:48:37.428
ありとあらゆる言葉と[br]ありとあらゆる言葉の語形の
0:48:37.428,0:48:39.747
両方の異形を[br]認識する必要があります
0:48:40.677,0:48:43.391
これは公式の不変の異形に対する
0:48:43.391,0:48:46.340
とても包括的なユースケースです
0:48:46.340,0:48:48.942
方言ではなく[br]地域でもなく
0:48:49.332,0:48:53.627
2つの共存している[br]形態体系なのです
0:48:54.537,0:48:58.926
現在の語彙素でこれを表す方法を[br]私もよく分かっていません
0:48:58.926,0:49:02.720
マグナスの質問に一部[br]回答することになりますがー
0:49:02.720,0:49:05.668
公開されている最大のヘブライ語辞書から[br]準備できている部分を
0:49:05.668,0:49:08.102
私がアップロードできていない[br]理由の1つです
0:49:08.102,0:49:13.141
その辞書は私が7年間デジタル化しており
0:49:13.141,0:49:14.803
かなりの量が準備できていますが
0:49:14.803,0:49:16.549
現在語彙素に移していません
0:49:16.549,0:49:20.245
この問題の解決法が[br]よく分からないからです
0:49:20.245,0:49:23.387
では その問題を[br]ここで解決しましょう(笑)
0:49:24.503,0:49:26.021
可能なはずです
0:49:30.045,0:49:32.047
では 他に質問は?
0:49:37.173,0:49:39.735
なければ以上です[br]ありがとうございました
0:49:40.605,0:49:42.675
(拍手)