cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Edit subtitles

0:00 - 0:02

[基調講演]
0:03 - 0:06

[ベンジャミン・ヤン (パンレックス)]
0:06 - 0:07

地球上には今
0:07 - 0:11

約7.500種の言語があります
0:12 - 0:20

推測ではそのうち７割が
21世紀中に消滅するとされています
0:22 - 0:25

ある言語が死滅するたびに
0:25 - 0:28

数百年数千年と続いていた
0:28 - 0:32

繋がりが断ち切られます
0:32 - 0:38

文化歴史伝統
そして知識への繋がりが断絶します
0:39 - 0:42

言語学者ケネス・ヘイルは
こう言いました
0:42 - 0:44

言語が死ぬたびに
0:44 - 0:47

ルーブルに原子爆弾が
落とされているようなものだと
0:49 - 0:52

そこで質問です
0:53 - 0:55

言語はなぜ死ぬのでしょうか
0:56 - 1:00

簡単な解答として思いつくのは
1:00 - 1:03

権威主義的な政府が
1:03 - 1:06

ある民族が自らの言語を
話すことを禁ずる場合や
1:06 - 1:10

学校で母国語を話す子供が
罰せられる場合
1:10 - 1:13

あるいは少数言語のラジオ局を
1:13 - 1:15

政府が強制閉鎖するような例です
1:15 - 1:17

過去には間違いなく起きてきたことで
1:17 - 1:19

今日でもある程度起きていることです
1:20 - 1:23

しかし本当の答えとしては
1:23 - 1:27

ほとんどの言語死滅は
1:27 - 1:29

もっと単純で
1:29 - 1:33

簡単に説明できるものなのです
1:34 - 1:36

ひとつの世代から次の世代へと
1:36 - 1:38

継承されないことにより
1:38 - 1:40

言語は消滅するのです
1:42 - 1:44

少数言語を話す人が
1:44 - 1:46

子供をもうけるたびに
1:47 - 1:50

算段をするんです
1:51 - 1:53

このように自問します
1:54 - 1:57

自分の言語を子供に継承すべきか
1:57 - 2:01

それとも主流言語だけを教えるべきかと
2:01 - 2:06

実際にはその人の頭の中には
計りがあるんです
2:07 - 2:08

計りの一方にはー
2:10 - 2:15

今までの人生で母国語を
2:15 - 2:19

意思疎通や
伝統文化に触れるために使うたびに
2:20 - 2:22

左側に重石が置かれています
2:23 - 2:26

逆に母国語が使用できず
2:26 - 2:28

主流言語を使わざるを得ないたびに
2:28 - 2:30

右側に重石が置かれています
2:32 - 2:35

母国が話せるという自信と誇りにより
2:35 - 2:37

左側に置かれている重石の方が
2:37 - 2:39

少し重くなっています
2:39 - 2:42

でも徐々に右側に重石が溜まってきて
2:43 - 2:45

いずれ計りが右に傾きます
2:45 - 2:46

そうするとその人が
2:46 - 2:49

母国語を継承するかどうか
決断する時が訪れた際に
2:49 - 2:53

母国語が祝福すべきものではなく
重荷として感じられてしまうのです
2:55 - 2:59

次の質問は
これをどうやって反転させるかです
2:59 - 3:02

まず第一に次の事実があります
3:04 - 3:05

どんな言語でも
3:05 - 3:08

使用可能な社会的範囲が
あるということです
3:08 - 3:11

今日話されている
全ての母国語は
3:11 - 3:13

その家族同士で
使用することができます
3:14 - 3:17

コミュニティ内で使用可能な言語は
やや少なくなり
3:17 - 3:19

より広い地域で使用できるのは
もっと少ないでしょう
3:20 - 3:22

国際的な意思疎通に使えるとなると
3:23 - 3:25

一握りの言語になります
3:26 - 3:29

またこれらの領域それぞれにおいても
3:29 - 3:32

母国語を教育やビジネス
3:32 - 3:38

またはテクノロジーに使えるか
という問題があります
3:39 - 3:42

ご説明していることを
3:43 - 3:45

分かりやすくするため
3:45 - 3:46

例え話をご紹介します
3:48 - 3:50

あなたが今まで夢に見ていた
3:50 - 3:52

インド旅行に行くとしましょう
3:53 - 3:56

乗り換えでイスタンブールに
８時間滞在するとします
3:57 - 4:01

トルコを訪問する予定はありませんでしたが
4:01 - 4:04

一時滞在することもあり
4:04 - 4:06

トルコ人の友人が
空港の近くの
4:06 - 4:08

美味しいレストランを
教えてくれたので
4:08 - 4:11

あなたは滞在中に
寄ってみることにしました
4:11 - 4:13

空港を出て
4:14 - 4:16

レストランに着き
4:16 - 4:17

メニューを受け取ると
4:17 - 4:19

それはトルコ語だけのものでした
4:20 - 4:23

この話の前提として
4:23 - 4:25

あなたはトルコ語は話せないとします
4:25 - 4:27

どうしますか？
4:28 - 4:30

最良のケースとしては
4:30 - 4:32

あなたの母国語ー
4:32 - 4:34

ドイツ語や英語を
話す人を見つけることです
4:36 - 4:38

でもその日は運が悪く
4:38 - 4:41

レストランにドイツ語も英語も
話せる人はいません
4:42 - 4:43

さあどうします？
4:43 - 4:46

私だったらー
大多数の方もそうでしょうがー
4:46 - 4:48

テクノロジーに解を求めます
4:50 - 4:52

自動翻訳機か電子辞書を使って
4:53 - 4:54

一語ずつ検索して行けば
4:54 - 4:58

最終的に美味しいトルコ料理が
注文できるでしょう
5:00 - 5:03

次のこんなシナリオを考えてみましょう
5:04 - 5:06

あなたは少数言語が母国語です
5:08 - 5:09

例えば低地ソルブ語
5:09 - 5:12

低地ソルブ語はここドイツで
絶滅の危機に瀕している言語です
5:13 - 5:17

ここから130キロほど南東で
5:18 - 5:21

既に多くが年老いた
数千人が使用しています
5:23 - 5:25

この低地ソルブ語が母国です
5:25 - 5:27

レストランに着きました
5:27 - 5:29

当然ながらそのレストランに
5:29 - 5:31

あなたの母国語を話す人がいる確率は
ほとんどありません
5:32 - 5:36

またテクノロジーに
解を求めても良いですが
5:37 - 5:39

あなたの母国語には
5:39 - 5:42

テクノロジーによる
解は提供されていません
5:42 - 5:45

ドイツ語か英語を中間言語として
5:45 - 5:48

トルコ語に翻訳して
もらうしかないのです
5:49 - 5:52

結局は美味しいトルコ料理が
食べられた訳ですが
5:52 - 5:55

これが自分の祖父だったとしたら
5:55 - 5:57

ドイツ語が話せないため
難しかっただろうと考えます
5:58 - 6:00

これ自体は小さなことですが
6:00 - 6:05

結果的に計りの右側に重石が置かれ
6:05 - 6:07

あなたは多分
6:07 - 6:10

子供が生まれたら
または次の子が生まれた場合は
6:11 - 6:13

母国語を保つために
6:13 - 6:17

このような苦労は
させたくはないと考えるでしょう
6:19 - 6:21

もっと重要な局面で
6:21 - 6:26

同様のことが起きたとしたら
どうでしょう
6:26 - 6:28

例えば病院にいるときなどです
6:31 - 6:36

ここで我々は手助けができます
6:37 - 6:40

我々とは
ここに今いる私たちのことです
6:41 - 6:43

手助けをするツールがあるんです
6:45 - 6:47

少数言語や
サポートの少ない言語を話す人々にも
6:47 - 6:49

テクノロジー・ツールが提供されれば
6:51 - 6:54

計りの左側を少しだけ
指で押してあげられるんです
6:54 - 6:58

その人は外界と交流するために
少数言語に頼る必要があると
6:58 - 7:00

考えなくても良くなるのです
7:00 - 7:03

なぜならその人の社会的な活動範囲が
7:03 - 7:06

わずかながら拡大するからです
7:08 - 7:10

もちろん理想的な解決策は
7:10 - 7:13

世界の全ての言語で
自動翻訳が可能となることですが
7:13 - 7:17

残念ながら現実的ではありません
7:17 - 7:20

自動翻訳は巨大な
テキストのコーパスを必要としますが
7:20 - 7:23

絶滅に直面していたり
サポートの少ない言語の多くは
7:23 - 7:25

そのようなデータが存在しません
7:26 - 7:29

言語によっては
一般的に表記もされていないため
7:29 - 7:33

自動翻訳機を構築するために必要な
データ量を集めることは
7:33 - 7:34

現実的ではありません
7:34 - 7:38

でも語彙的なデータは存在します
7:40 - 7:46

過去数百年にわたる
数多くの言語学者の尽力により
7:48 - 7:50

世界の多くの言語に関し
7:50 - 7:52

辞書や文法書が出版されています
7:54 - 7:56

でも残念ながら
7:56 - 8:01

その出版物の多くは
広く行き渡っておらず
8:01 - 8:04

少数言語の話し手にも
入手は困難です
8:04 - 8:06

これは意図的にそうなってる訳ではなく
8:06 - 8:11

多くの場合は
単に辞書の初版が少なく
8:11 - 8:13

存在するものは
8:13 - 8:16

大学の図書館の片隅で
カビを生やしているだけなのです
8:18 - 8:21

でも私たちはそのデータを入手し
8:21 - 8:23

世界にアクセスさせることができるのです
8:24 - 8:26

ウィキメディア財団は
8:26 - 8:31

データを地球上の人類の大多数に
データを届けられる
8:31 - 8:33

最良の機関のひとつー
8:33 - 8:37

いや最良の機関だと言えます
8:39 - 8:40

だから頑張りましょう
8:41 - 8:43

我々がこの領域で
8:43 - 8:45

何をしてきたか少し説明するため
8:45 - 8:48

私の団体である
パンレックスをご紹介します
8:49 - 8:50

この問題解決のため
8:50 - 8:54

語彙データを収集しようとしている団体です
8:55 - 8:57

我々は12年前に
8:57 - 9:00

ワシントン大学で
研究プロジェクトとして始まりました
9:00 - 9:01

理念としてあったのは
9:01 - 9:04

推論的翻訳が
9:04 - 9:07

効果的な翻訳機となり得ることを
証明することでした
9:07 - 9:09

要するに語彙的な翻訳機です
9:09 - 9:12

これがパンレックスのデータの実例です
9:13 - 9:18

トルコ語で「家」を意味する「エヴ」を
9:18 - 9:21

さきほど述べた低地ソルブ語に
翻訳する方法を示しています
9:21 - 9:24

トルコ語から低地ソルブ語の辞書を
9:24 - 9:26

みつけるのは難しいでしょうが
9:26 - 9:30

いろいろな中間言語を通すことにより
9:31 - 9:33

効果的な翻訳が可能です
9:34 - 9:37

研究プロジェクトの結果を受け
9:37 - 9:40

パンレックス創立者の
ジョナサン・プール博士は
9:41 - 9:44

「実際にやろうじゃないか」と
9:44 - 9:46

非営利団体を設立し
9:46 - 9:49

語彙データを大量に集め
提供することにしたのです
9:49 - 9:51

これが我々の過去12年の営みです
9:51 - 9:55

その間数千種類の辞書を集め
9:55 - 9:57

語彙データを抽出し
9:57 - 10:01

推論的語彙翻訳を可能にする
データベースを構築しました
10:01 - 10:04

翻訳対象言語は
10:04 - 10:06

現時点で世界の7,500言語のうち
10:06 - 10:08

約5,500言語をカバーしています
10:10 - 10:12

我々は常に対象言語を広げ
10:12 - 10:15

各言語内でもデータ量を拡大する
努力を続けています
10:18 - 10:21

そこで次の質問は
10:22 - 10:26

どのような協働ができるかです
10:27 - 10:28

パンレックスでは
10:28 - 10:31

最近ウィキデータが開発している語彙データに
10:31 - 10:34

大いに関心を持っています
10:35 - 10:37

我々と同じような領域で
10:37 - 10:41

異なる側面から研究をしている
団体がいるというのは素晴らしいことです
10:42 - 10:44

ウィキデータの活動結果に
10:45 - 10:47

とても期待しています
10:47 - 10:51

ウィキデータと協働することにも
期待しています
10:54 - 10:56

我々が過去12年間で培ってきた
10:56 - 10:58

語彙データの収集だけでなく
10:58 - 11:02

データベースのデザインも含めた
特別なスキルが
11:02 - 11:04

ウィキデータにとっても
有益なものになるでしょう
11:05 - 11:07

その一方で
11:08 - 11:11

データをクラウドソーシングする
11:12 - 11:15

ウィキデータの能力にも
特に期待しています
11:15 - 11:18

現在パンレックスのデータソースはすべて
11:18 - 11:21

印刷された語彙データや
その他の語彙ソースであり
11:21 - 11:23

クラウドソーシングはやってません
11:23 - 11:25

それを可能にする
インフラがないのです
11:25 - 11:27

そしてウィキメディア基金はもちろん
11:27 - 11:29

クラウドソーシングの
世界的なエキスパートです
11:31 - 11:34

お互いのスキルを
具体的にどのように活用できるか
11:34 - 11:36

非常に楽しみにしています
11:39 - 11:40

これらの取り組みに関して
11:40 - 11:42

全体として重要なことは
11:42 - 11:45

作業をしていると
細部にこだわってしまうということです
11:45 - 11:48

我々の作業は
文法書を見たり
11:48 - 11:52

辞書や古語辞典を調べたり
11:52 - 11:54

時には最近出版された辞書を使い
11:54 - 11:58

文章中の言葉を確認していると
11:58 - 12:00

その言語に密着している気になります
12:00 - 12:03

しかしたまに一歩引くことが必要です
12:03 - 12:05

自分たちがやっていることが
12:05 - 12:09

つまらないことのような
気がすることがあっても
12:10 - 12:12

非常に大切な取り組みなんです
12:13 - 12:16

これは私の意見になりますが
12:16 - 12:19

絶滅しそうな言語を支援し
12:19 - 12:22

地球上の言語の多様性が
12:22 - 12:26

今世紀末からその先まで保たれるための
最良の方法だと信じています
12:26 - 12:30

今日の我々の活動により
12:30 - 12:33

言語が保存され継承され
12:33 - 12:35

絶滅の目を見ないことに
12:35 - 12:37

つながる可能性は十分あります
12:39 - 12:41

だから覚えていてください
12:41 - 12:43

あなたがコンピュータの前に座って
12:43 - 12:45

個別のエントリーを編集したり
12:45 - 12:52

少数言語のすべての名詞を
データ入力しているとき
12:52 - 12:55

自分がやっている
その小さな作業が
12:55 - 12:59

その言語が今世紀末からその先まで
存続できるための
12:59 - 13:01

責任の一部を担っている
可能性があるということです
13:03 - 13:04

有難うございました
13:04 - 13:06

ご質問を受けたいと思います
13:06 - 13:07

（拍手）
13:24 - 13:25

（聴衆１）ありがとう
13:25 - 13:27

お話し有難うございました
13:27 - 13:29

辞書について質問があります
13:29 - 13:31

印刷された辞書で作業をすると
おっしゃいましたね
13:31 - 13:32

はい
13:32 - 13:35

その辞書から
何を抽出されてますか
13:35 - 13:38

また著作権などの問題に
対処する必要はありますか
13:38 - 13:41

これが最初の質問になるだろうと
予想していましたよ（笑）
13:43 - 13:46

まずパンレックスでは
13:46 - 13:50

法的なアドバイスを得た結果
13:53 - 13:58

辞書の編纂編集は著作権で
守られ得るものの
13:58 - 14:03

その中の翻訳自体は
著作権の対象外であると考えています
14:04 - 14:12

好例として米国法においては
電話帳は著作権対象とされていますが
14:12 - 14:18

Xという人物の電話番号がDという
事実は著作権対象となりません
14:23 - 14:25

法律の専門家によれば
14:25 - 14:27

この問題には対処できるわけです
14:27 - 14:31

仮にこの主張が法的に
不十分であったとしても
14:31 - 14:32

重要な点は
14:32 - 14:38

ほとんどの語彙データに関し
14:39 - 14:41

著作権保護期限が過ぎているという点です
14:41 - 14:44

ですから多くのデータが
著作権の問題なく利用できるのです
14:44 - 14:50

また最近出版された辞書で作業をする場合は
14:50 - 14:52

スキャンして
光学文字認識するのではなく
14:52 - 14:54

辞書の作成者に
Eメールしちゃいます
14:54 - 14:57

実際には大抵の言語学者は
14:57 - 15:00

とても喜んで自分のデータを公開してくれます
15:00 - 15:04

「もちろんです全部データベースに加えて
アクセス可能にしてください」という感じです
15:07 - 15:10

このように法的見解に基づけば大丈夫ですが
15:10 - 15:12

そこに不安がある場合でも
15:12 - 15:16

データを広くアクセス可能とすることは
さほど難しくはありません
15:27 - 15:29

（聴衆２）有難うございます
こんにちは
15:29 - 15:32

低地ソルブ語を話す人が
15:32 - 15:35

どのようにデータにアクセスしているか
もう少し説明して頂けますか
15:35 - 15:39

情報が具体的に
どのように届けられるのか
15:39 - 15:40

そしてその人たちに
15:40 - 15:43

データを利用してみるよう
どうやって説得するのかー
15:43 - 15:44

とても良い質問です
15:44 - 15:47

私もそのことについて
良く考えています
15:47 - 15:50

データアクセスというものは
15:51 - 15:54

実際には複数のステップがあるんです
15:54 - 15:56

一つ目はデータ保存ですー
データが消滅しないようにします
15:56 - 15:59

二つ目はデータの相互運用性を確保して
15:59 - 16:02

誰でも活用できるようにすることです
16:02 - 16:06

三つ目はデータにアクセスが
可能であることです
16:06 - 16:09

パンレックスの場合では
16:09 - 16:10

APIを提供していますが
16:10 - 16:13

当然ながらエンドユーザーには
活用してもえません
16:13 - 16:15

そこでインターフェースも
開発しました
16:17 - 16:20

例えば translate.panlex.org に行けば
16:21 - 16:23

我々のデータバース上で
翻訳ができます
16:23 - 16:26

APIを試してみたければ
dev.panlex.org に行って
16:26 - 16:29

APIが試せます
api.panlex.org からも行けます
16:30 - 16:33

でももう一つのステップが必要です
16:34 - 16:37

素晴らしく便利なツールを使って
16:37 - 16:41

データを完璧にアクセス可能にしても
16:42 - 16:44

そのツールを宣伝しないと
16:44 - 16:46

人々に実際に使ってもらえません
16:46 - 16:51

これは余り話題にのぼりませんが
16:52 - 16:54

私も良い解答を持っていません
16:56 - 17:00

例えば私もつい数年前までは
ウィキデータのことを知りませんでした
17:00 - 17:03

まさしく私が関心を持っている
ものにも関わらずです
17:03 - 17:07

どうやって宣伝すれば良いのでしょうか？
17:07 - 17:09

今答えがあるとは思っていません
17:09 - 17:11

私自身も良い解答をもっていません
17:12 - 17:13

もちろんそのためには
17:13 - 17:15

最初のステップを完了する必要があります
17:23 - 17:25

（聴衆３）機械翻訳のためには
17:25 - 17:29

翻訳メモリーが必要ではないですか？
17:29 - 17:32

我々はウィキデータに個別の言葉や
17:33 - 17:37

短いフレーズを
17:37 - 17:41

通常のウィキデータ項目や
ウィキデータ語彙素として入力していますが
17:41 - 17:44

ちゃんとした翻訳に
十分なものかどうかわかりません
17:44 - 17:47

機械翻訳には完全な文が必要だと思うんです
17:47 - 17:49

（ベンジャミン）その通りですね
17:49 - 17:52

（聴衆３）データ構造は
どうやって入手するんですか？
17:52 - 17:55

現時点でウィキデータが
17:55 - 17:59

翻訳メモリーの問題を
17:59 - 18:04

上手く処理できるかどうかわかりません
18:04 - 18:07

translatewiki.net を使って
18:07 - 18:10

そのギャップを埋めることを
18:10 - 18:15

検討するべきなのでしょうか？
18:16 - 18:18

ご質問の主旨は良く分かります
18:18 - 18:21

さきほど少し触れましたが
再度説明したいと思います
18:22 - 18:25

それがまさしくパンレックスが
語彙データを扱っている理由です
18:25 - 18:29

そしてまた私が機械翻訳エンジンや
機械翻訳よりもー
18:29 - 18:31

というか機械翻訳に加えて
18:31 - 18:35

語彙データに興味がある
理由でもあります
18:35 - 18:39

ご指摘の通り機械翻訳は特別な種類の
データを必要としますが
18:40 - 18:44

そのデータは世界の言語の大多数で
入手ができません
18:44 - 18:47

世界の言語の大多数で
入手不可能なんです
18:47 - 18:49

でもそれは諦める理由にはなりません
18:49 - 18:51

どうして諦めますか？
18:52 - 18:55

トルコレストランのメニューを
翻訳するのであれば
18:55 - 18:59

語彙翻訳は最適なツールでしょう
18:59 - 19:04

語彙翻訳を使って完璧な段落から段落への
翻訳ができるとは言ってません
19:04 - 19:07

語彙翻訳という場合
言葉から言葉への翻訳を指してますが
19:07 - 19:09

それでもとても便利な場合があります
19:12 - 19:14

考えてみればおかしいことですが
19:14 - 19:17

本当に優れた機械翻訳には
19:17 - 19:20

つい最近まで誰も
アクセスがなかったわけですが
19:21 - 19:24

それでも辞書で何とかやって来れたんです
19:24 - 19:28

辞書はものすごく便利なリソースなんです
19:29 - 19:30

そのデータがあるんだから
19:30 - 19:35

世の中とその言語を話す人々に
提供するべきです
19:36 - 19:39

（聴衆４）こんにちは
どんなメカニズムがあるんですが
19:39 - 19:41

コミュニティー自身がー
ここにいます
19:41 - 19:43

ああそこですか
19:43 - 19:47

（聴衆４）コミュニティ自身が
パンレックスとデータを共有したくない場合？
19:48 - 19:49

良い質問です
19:50 - 19:52

その場合の対処法は
19:53 - 19:56

もし辞書が発行され
公に入手可能であれば
19:56 - 19:58

良い指標だと考えています
19:58 - 20:05

本屋や大学の図書館で購入できたり
公の図書館で誰でもアクセスできる場合
20:05 - 20:09

共有しても良いという意思が
示されたと考えられます
20:16 - 20:19

マイクに向かって
話していただけますか？
20:19 - 20:21

繰り返して頂けますか？
20:21 - 20:24

（聴衆４）言語学者は常にコミュニティの
許可を得ているとは限りません
20:24 - 20:28

コミュニティの承諾を
得ないで書物を発行することもあります
20:28 - 20:29

その通りだと思います
20:32 - 20:35

そういうことはあるでしょうが
20:35 - 20:36

ごく限られた場合であり
20:37 - 20:41

もっぱら北米に限定されたことと思います
20:41 - 20:43

南米の言語でも時々そういうことは起きますが
20:44 - 20:46

考慮する必要があることです
20:47 - 20:52

例えばパンレックスにあるデータについて
20:52 - 20:56

世間一般にアクセスさせてはならないと
言われた場合
20:56 - 20:58

我々はそのデータを削除します
21:01 - 21:04

それは著作権を尊重するという
意味ではありませんが
21:04 - 21:07

伝統的な
コミュニティーの意見は聞きます
21:07 - 21:08

それは大きな違いです
21:08 - 21:10

（聴衆４）そのことを指してました
21:14 - 21:17

とても興味深い点に繋がるんです
21:19 - 21:22

時として誰がその言語を話すかと
いうことが大変重要になります
21:23 - 21:28

私の経験で
アメリカの南西部を訪れて
21:28 - 21:31

プエブロ語を話す原住民のことを調べている
21:31 - 21:33

グループと協働したことがあります
21:34 - 21:37

そのエリアで話される
プエブロ言語は
21:37 - 21:39

分類の仕方にもよりますが
21:39 - 21:42

６種類くらいあります
21:42 - 21:45

でもその言語は
18種類のプエブロ族に分かれていて
21:45 - 21:48

それぞれが
独自の族政府を持ち
21:48 - 21:51

それぞれの政府が
自分たちの言語を
21:51 - 21:54

外界にアクセスさせるべきか否か
独自の意見を持っています
21:55 - 21:59

ズリ・プエブロの場合を見てみましょう
21:59 - 22:02

ズリ語を話す
唯一のプエブロですが
22:02 - 22:05

彼らは自分たちの言語が
拡散することは大歓迎で
22:05 - 22:07

道路標識とかあちこちに表示しています
22:09 - 22:11

でも他の言語では
22:11 - 22:13

あるグループは
22:13 - 22:17

「我々の言語はよそ者に
アクセスさせたくない」と言い
22:17 - 22:19

同じ言語を話す
隣のプエブロは
22:19 - 22:23

「このテクノロジー・ツールを使って
22:23 - 22:25

外界の者に
我々の言語にアクセスして欲しい
22:25 - 22:28

我々の言語に永続して欲しい」と言うんです
22:28 - 22:30

難しい倫理的問題を提示します
22:30 - 22:31

もし画一的に
22:31 - 22:35

「分かりましたこのグループの希望だから
断絶します」としたら
22:35 - 22:38

もう一方のグループの
積極的に断絶を回避したいという
22:38 - 22:40

意思に反していることになります
22:40 - 22:43

この問題には簡単な答えはありません
22:43 - 22:47

パンレックスでは
22:47 - 22:49

私が知る限りでは
22:49 - 22:52

まだこのような問題に遭遇していませんが
22:52 - 22:54

でもそれはもしかするとー
22:54 - 22:56

彼の質問に戻りますがー
22:56 - 22:58

もっと宣伝すれば良いのかも知れません
22:59 - 23:00

でも一般的には
23:01 - 23:05

知る限り
この問題は発生していません
23:06 - 23:08

我々の対応策としては
23:08 - 23:11

あるコミュニティがデータを
提供したくないと言えば
23:11 - 23:12

我々はデータベースから削除します
23:12 - 23:15

ウィキデータやウィキペディアでも
同様なことに遭遇しています
23:15 - 23:18

- あるんですか？
- （聴衆４）コメント等で問題に…
23:18 - 23:21

特に写真などのコメントで
問題になることは考えられますね
23:21 - 23:22

（聴衆４）その通り
23:28 - 23:33

（聴衆５）クラウドソーシングの質問です
23:33 - 23:37

コミュニティに対し
23:37 - 23:41

データセットへの注釈や
データの追加を求めるとき
23:41 - 23:44

ちょっと気が引けるのは
23:44 - 23:49

編集者としては
足りないものしか見えてないということです
23:49 - 23:53

でもアイディアがあって
時間をかけて
23:53 - 23:57

優先事項のリストを持つことは
23:58 - 24:01

その面では
モチベーションに繋がると思います
24:01 - 24:03

私が興味があったのは
24:03 - 24:08

あなた方がデータのギャップを
知るようなシステムを持ってるかどうかです
24:08 - 24:11

言語学的なエビデンスに基づき
24:11 - 24:16

これらも注釈をつければ
影響力の大きいドライバーになるだろうとか
24:16 - 24:20

例えば「家」の語彙素を持つことは
24:20 - 24:25

データ類の語彙素よりも
インパクトが大きいことは想像できます
24:26 - 24:29

そのデータがあれば
24:29 - 24:36

コミュニティの努力を推進するために
使えるかどうか興味があります
24:36 - 24:37

良い質問です
24:37 - 24:41

ウィキデータが
沢山持っているものにー
24:41 - 24:45

失礼パンレックスが沢山持ってるのは
スワデシュ・リストです
24:45 - 24:49

面白いことに我々は世界最大の
スワデシュ・リストを持ってるようです
24:49 - 24:51

スワデシュ・リストを
ご存知でない場合
24:51 - 24:54

規則化された語彙のリストで
24:54 - 25:00

言語分析に使用されます
25:00 - 25:04

とても基本的なリストで構成されています
25:04 - 25:06

２種類のスワデシュ・リストががありますが
25:06 - 25:08

100または213項目からなり
25:08 - 25:13

「家」「目」「肌」のような
25:13 - 25:17

どんな言語にもあるような
基本的な言葉が含まれています
25:18 - 25:23

そのようなデータを提供するには
とても良い出発点だと思います
25:30 - 25:31

さきほど申し上げた通り
25:31 - 25:34

我々はまだ
クラウドソーシングをしていませんが
25:34 - 25:37

開始予定であることを
とても喜んでいます
25:37 - 25:40

今回のコンファレンスで皆さんに
25:40 - 25:44

クラウドソーシングの活用法や
その裏のロジスティクスについて
25:44 - 25:47

お伝えできることが嬉しいです
25:47 - 25:49

するとこういう質問を受ける訳です
25:51 - 25:54

だから私からの答えとしては
25:54 - 25:56

優先事項のリストがあるということです
25:56 - 25:57

間違いなく言えるのは
25:57 - 26:00

探している言語の優先リストがあると
いうことです
26:00 - 26:02

どう取り組んでいるかと言うと
26:02 - 26:05

テクノロジー・ソリューションの
恩恵を受けてない言語を探します
26:05 - 26:07

それは多くの場合少数言語で
26:11 - 26:13

我々はそういったものを優先します
26:15 - 26:21

我々が新たに取得するデータは
一般的には語彙項目であり
26:21 - 26:24

実質的には辞書を丸々
吸収するということです
26:24 - 26:27

我々は辞書が選択する
26:27 - 26:28

語彙項目に依存しています
26:28 - 26:32

全ての言語で「家」という言葉を
探す訳ではありません
26:32 - 26:35

でもデータのクラウドソーシングの場合
そのようなアプローチになります
26:36 - 26:38

だからこれは研究と成長の機会なんです
26:40 - 26:43

（聴衆６）ヴィクターです
本当にすごいですね
26:44 - 26:47

スライドがありますが
26:48 - 26:51

ウィキデータとパンレックスの間の
26:51 - 26:53

データと情報の流れに関する
26:53 - 26:57

現在の技術的な状況について
説明して頂けますか
26:58 - 27:01

既に実行に移されているのか
27:01 - 27:04

そしてパンレックスとウィキデータの間の
27:04 - 27:08

情報の相互交通
またはフィードバック・ループ情報に
27:08 - 27:10

どう対処しているのでしょうか
27:10 - 27:14

現時点ではウィキデータと
フォーマルな接続はしていません
27:14 - 27:18

先ほど述べた通り今回ここで皆さんに
是非紹介したいことなんです
27:18 - 27:20

ウィクショナリーとは既に
交流が始まっていますが
27:22 - 27:25

正直言うとウィキデータの方が
我々が求めていることと
27:25 - 27:26

相性は良いはずです
27:28 - 27:30

語彙関係そのもののデータを持っているので
27:30 - 27:33

我々はデータ分析や抽出に
余分な時間を費やす必要がありません
27:34 - 27:38

そこで答えはまだ接続していないが
是非そうしたいということです
27:38 - 27:41

まだ接続していないなら
何が障害なんですか？
27:41 - 27:44

ウィキデータはすでに
幾つかの言語をサポートしていますが
27:44 - 27:47

translate.panlex.orgを参照すると
27:47 - 27:50

どうやらあなた方は
多くの言語変種もサポートしており
27:50 - 27:52

ウィキデータより範囲は相当広いですね
27:52 - 27:55

翻訳や語彙翻訳ありきの
27:55 - 27:57

アプリケーションに対し
27:57 - 28:01

ナレッジ構造をマッピングする試みとの
28:01 - 28:04

ギャップについて
どうお考えですか？
28:04 - 28:06

ナレッジのマッピングは
確かにとても興味深いです
28:06 - 28:12

ウィキデータが語彙データを整理する方法
28:12 - 28:17

そして我々の方法について
興味深いディスカッションがありました
28:17 - 28:21

マッピング戦略を要する
微妙なデータの違いがありました
28:21 - 28:25

そのいくつかは
自動化できませんが
28:25 - 28:28

それを可能にするテクニックが
開発できるかも知れません
28:28 - 28:31

言語変種のことを話されましたが
28:31 - 28:35

我々は言語変種については
非常に細かく分類しがちです
28:35 - 28:37

例えばあるデータソースが
28:37 - 28:40

パプアニューギニアの言語で
28:40 - 28:42

この方言が川の左側で話されると言い
28:42 - 28:45

別のソースが
その方言は川の右側で話されると言えば
28:45 - 28:47

我々はそれぞれ別の言語とし扱います
28:47 - 28:51

そのようにしてできるだけ多くの
データを保存しようとしているのです
28:52 - 28:55

それをウィキデータの方法に
マッピングできるようにするにはー
28:55 - 28:58

私が是非意見交換したいのは
28:58 - 29:01

ウィキデータで言語が
29:01 - 29:06

どのように指定されるかという点です
29:08 - 29:12

先ほどの通り我々は細密分類の
戦略を取ってますから
29:14 - 29:18

我々はもっぱらエスノローグが提供する
29:18 - 29:20

ISO 6393 コードに準拠していますが
29:20 - 29:24

各コード内で
複数の言語変種を容認しています
29:24 - 29:29

例えば文字変種や地域的な方言
社会方言に対応するためです
29:30 - 29:33

これも今後の議論や協働のトピックです
29:36 - 29:40

（聴衆７）光学文字認識 (OCR) の
パイプラインについて教えてください
29:41 - 29:45

私たちもマヤ語で OCR に挑戦しており
29:45 - 29:48

なかなか結果が出ないもんですから
29:48 - 29:50

全く認識してもらえないんです
29:50 - 29:51

そうでしょうね（笑）
29:54 - 29:57

（聴衆７）パイプラインが開示できれば
29:57 - 30:00

もう一つの質問は
ISOコードの重複についてです
30:00 - 30:05

ソースによって
これとこれは違う言語と言ったり
30:05 - 30:08

別のソースでは
異なる扱いだったりして
30:08 - 30:11

先ほどおっしゃった通り
重複することが多いので
30:11 - 30:13

どう対応されていますか？
30:13 - 30:16

素晴らしい質問ですね
30:18 - 30:21

正式なOCRパイプラインはありませんが
30:21 - 30:24

ソースごとに取り組んでいます
30:24 - 30:25

なぜかと言うと
30:25 - 30:30

OCRを必要としないソースも多い一方で
30:30 - 30:32

OCRが入手可能な言語もあるので
30:32 - 30:33

作業が楽な後者に専念しています
30:33 - 30:36

当然ながら着手予定のソースで
30:36 - 30:38

詳細な研究を進める場合は
30:38 - 30:41

OCRパイプラインを
充実させる必要があります
30:41 - 30:45

でも別の面もあって
おっしゃった通り
30:45 - 30:48

OCRエンジンを設計した人たちは
30:48 - 30:53

どれくらいストレステストできるか
認識していないんだと思います
30:53 - 30:57

だって何が楽しいかと言えばー
30:57 - 30:59

ロシア語対チベット語辞書のOCRとか
30:59 - 31:01

相当難しいですよね
31:01 - 31:04

結局諦めて
タイプ入力してくれる人を雇いました
31:04 - 31:06

その方法でもできた訳です
31:06 - 31:09

実際にその女性はすごくて
31:09 - 31:11

チベット語を読むことを学んだロシア人で
31:11 - 31:13

タイプ入力してくれ大変助かりました
31:17 - 31:19

ラテン系の文字を扱っている場合は
31:19 - 31:23

充実したOCRソリューションは開発可能で
31:23 - 31:25

このような複数言語に対応でき
31:25 - 31:31

16世紀のマヤ語みたいなものを扱っていれば
ランダムな４桁コードも対応できます
31:32 - 31:36

でも言語によっては
31:36 - 31:41

OCRが永久に追いつかなかったり
31:41 - 31:44

作業量がとてつもなく
多すぎるものがあります
31:44 - 31:47

今この手法を活用しているのが
31:47 - 31:50

パンレックスの別のプロジェクトで
31:50 - 31:54

バリの全ての伝統文学を
読み込んでおり
31:54 - 31:58

バリ語の手書き文字では
31:58 - 32:01

OCRは無理であることが分かったため
32:01 - 32:03

大勢のバリ人にタイプしてもらってます
32:03 - 32:06

バリで注目の文化プロジェクトとして
32:06 - 32:09

ニュースなどでも取り上げられました
32:09 - 32:11

OCRに依存する必要はないものの
32:11 - 32:13

世の中には色々なOCRがあるので
32:13 - 32:16

優れたソリューションがあるのは
もちろん良いことです
32:17 - 32:21

超多言語OCRの専門家がいたら
32:21 - 32:23

是非声をかけてくださいね
32:30 - 32:32

（聴衆８）プレゼンテーション
有難うございました
32:32 - 32:34

パンレックスとウィキデータの
32:34 - 32:37

統合についてお話しされましたが
32:37 - 32:39

詳細には触れられませんでしたので
32:39 - 32:43

あなたのデータライセンスを調べたら
CC0でした
32:43 - 32:44

そうです
32:44 - 32:47

（聴衆８）いいですね
二つの方法が可能と思います
32:47 - 32:49

データをインポートするか
32:49 - 32:56

または完全なデータベースがある
フリーベースを活用したような方法です
32:56 - 32:59

その時はインポートしてリンクを作成しました
32:59 - 33:04

リンクはフリーベースの
データベースへの外部識別子を使いました
33:06 - 33:09

今回も同じようなことを考えてますか？
33:09 - 33:14

それとも単純に
ウィキデータにリンクできる
33:14 - 33:19

独立したデータベースを
作ろうと考えていますか？
33:19 - 33:21

とても良い質問で
33:21 - 33:26

私が今まで考えて来たことの
一歩先を行っていると思います
33:26 - 33:30

なぜかと言えば
さきほど申し上げた通り
33:30 - 33:33

両方のデータベースが
一緒に働けるようにすることは
33:33 - 33:34

それだけで大きなステップだからです
33:34 - 33:36

まず可能な最初のステップは
33:36 - 33:38

文字通りお互いのスキルを
混合することです
33:38 - 33:41

我々は個別の語彙素のプロパティ分類に関し
33:41 - 33:43

多くの経験を持っていますので
33:43 - 33:46

喜んでシェアしたいと思ってますが
33:46 - 33:49

データベースそのものを
リンクできれば素晴らしいです
33:49 - 33:51

是非できればと考えています
33:51 - 33:54

ウィキデータからパンレックスへの流れの方が
33:54 - 33:56

少し楽な気がしますが
33:56 - 33:59

方法がイメージできるから
思い込んでるだけかも知れません
34:02 - 34:08

ウィキデータがライセンスなどに関し
問題なければ
34:08 - 34:10

あるいは両者間で工夫すれば
34:10 - 34:12

とても良いアイディアだと思います
34:12 - 34:16

データそのものをリンクする方法さえ
考えつけばいいんです
34:16 - 34:20

まず思うのはウィキデータ上での編集が
34:20 - 34:26

瞬時にパンレックスのデータベース上にも
反映されればいいなということです
34:28 - 34:31

毎回データを送り直す必要がなければ
34:31 - 34:33

ウィキデータが実質的に
34:33 - 34:36

パンレックスのクラウドソースの
インターフェースになるわけで
34:36 - 34:37

最高だと思います
34:37 - 34:40

そうすればパンレックスを
即時翻訳にも使え
34:40 - 34:43

ウィキデータ全体の語彙項目を使って
翻訳ができる訳で
34:43 - 34:44

理想的ですね
34:55 - 34:58

（聴衆９）これは推論で穴を埋めるという
34:58 - 35:03

セマンティック・ウェブの監査工程
のようなものですね
35:05 - 35:10

このような翻訳について
もっと考えてみた場合
35:10 - 35:13

語義や文法のミスマッチについて
35:13 - 35:16

どのように対処するんですか？
35:16 - 35:19

例えばドイツ語を翻訳する場合
35:19 - 35:22

幾つかの言葉をまとめれば
35:22 - 35:26

それなりの結果が得られます
35:26 - 35:29

その一方で
例えば言語によっては
35:29 - 35:34

ドイツ語ほど
色に関して詳細なシステムがないと
35:34 - 35:41

何かで読んだことがあります
35:42 - 35:43

すべての言語が色に関し
35:43 - 35:46

異なるシステムを使っている
それとも同じとおっしゃいましたか？
35:46 - 35:49

（聴衆９）もしかすると
言語の進化の話だったも知れません
35:49 - 35:51

最初は白か黒で始まりそしてー
35:51 - 35:54

色のヒエラルキーですね
35:54 - 35:55

実際に色のヒエラルキーは
35:55 - 35:57

この仕組みを説明するのに適しています
35:59 - 36:02

一つの中間言語がある場合ー
36:02 - 36:05

機械翻訳に関する論文を読むと興味深いです
36:05 - 36:09

仮想の中間言語について良く話していますが
36:09 - 36:10

「中間言語がある」と言ってる場合
36:10 - 36:13

読んでみると大抵「英語だ」と言ってます
36:14 - 36:17

この形態の語彙翻訳がしていることは
36:17 - 36:21

多くの異なる中間言語を介することにより
36:21 - 36:27

色々な語義の曖昧さに
対応することができるのです
36:27 - 36:30

ある言葉の語義領域がそれなりに類似した
36:30 - 36:33

言語を介在させている限り
36:33 - 36:36

中間言語を通すことにより発生する
36:36 - 36:40

語義の曖昧さを回避することができますから
36:40 - 36:43

色のヒエラルキーの例をとれば
36:43 - 36:46

緑と青を表す言葉が一つしかない言語を
36:47 - 36:54

中間言語では青と翻訳し
36:54 - 36:57

その色について異なる曖昧さを持つ
別の言語にさらに翻訳した場合
36:57 - 37:01

語義的な曖昧さが発生してしまいます
37:01 - 37:03

でもやはり緑と青について
一つの言葉しか持たない
37:03 - 37:08

他の言語をたくさん介在させることにより
37:08 - 37:11

その特定の語義を実際に
37:11 - 37:17

最終言語に伝えることができるのです
37:17 - 37:21

文法的な面については
37:21 - 37:24

パンレックスでは今まで
37:24 - 37:30

語彙素すなわち語彙形式を収集して来ました
37:31 - 37:33

要するに
辞書の見出し語であれば
37:33 - 37:35

全て収集するということです
37:35 - 37:38

だから現時点では
37:38 - 37:41

文法的な変種形式は
積極的には収集していません
37:42 - 37:44

例えば [聞き取り不能] データや
37:44 - 37:45

過去形現在形などです
37:45 - 37:47

でも今後のこととして検討はしています
37:47 - 37:49

忘れてはならない点は
37:49 - 37:51

我々が重視しているのは
37:51 - 37:54

サポートの少ない言語や
絶滅しそうな少数言語ですから
37:55 - 37:57

完璧を目指すよりは
37:57 - 38:01

せめて何かを提供することを
優先しているということです
38:01 - 38:03

私が好きな言葉に
38:03 - 38:06

「完璧さを求める余り良い結果を逸するな」
というものがあり
38:06 - 38:07

それを肝に命じています
38:07 - 38:08

でも文法形式を扱ったり
38:08 - 38:11

異なる文法形式間で
38:11 - 38:14

翻訳できるようになることには
とても興味があります
38:14 - 38:16

今まである程度は研究はしましたが
38:16 - 38:17

まだ本格的に着手はしていません
38:25 - 38:28

世界の約7,500の言語について
38:30 - 38:33

表記された辞書を
使っておられるのでしょうが
38:33 - 38:38

その全ての言語が
標準的な表記法を持っているのでしょうか
38:38 - 38:40

良い質問ですね
38:42 - 38:45

これらの言語の多くが
38:45 - 38:48

皆さんご存じの通り
表記習慣がありません
38:48 - 38:51

ただ辞書が作られた言語であれば全て
38:51 - 38:53

何らかの正書法を持っています
38:53 - 38:57

その場合我々はその辞書の
正書法を頼ることになります
38:57 - 39:00

時として
失われるものがないと確信できれば
39:00 - 39:04

正書法を若干いじることはありますが
39:04 - 39:06

可能な限り避けるようにしています
39:09 - 39:13

我々は特定言語のために
正書法を作ることはやっていません
39:13 - 39:15

未発達である場合が多く
39:15 - 39:18

発達していたとしても
広く出版されていない場合が多いからです
39:22 - 39:26

例えばニューギニア島で話されている
多くの言語では
39:26 - 39:29

共通の正書法形式がないので
39:29 - 39:31

言語学者は
何かを作って工夫するしかなく
39:31 - 39:33

それも初期段階として
良い取り組みだと思います
39:33 - 39:37

我々はまた辞書で入手可能であれば
音声形式も収集します
39:37 - 39:39

これも別のアプローチであり
39:39 - 39:42

国際音声記号 (IPA) のようなものです
39:43 - 39:44

このような方法もある訳ですが
39:44 - 39:46

曖昧性が発生する可能性があるため
39:46 - 39:48

中間言語としては利用しません
39:53 - 39:56

（聴衆10）有難うございます
変な質問かも知れませんが
39:56 - 40:01

ここに示されているのがあなた方が使用される
中間言語の全てですか？
40:01 - 40:02

いいえ違います
40:02 - 40:04

（聴衆10）そうですか
有難うございます
40:04 - 40:06

いえご質問頂いて良かったです
40:06 - 40:11

これが translate.panlex.org の
スクリーンショットです
40:11 - 40:13

翻訳をする場合
40:13 - 40:15

右側に翻訳候補のリストが出ます
40:15 - 40:18

点々のあるボタンをクリックすると
こんなグラフが出ます
40:18 - 40:22

ここに中間言語が表示されます
40:22 - 40:25

スコアの上位20言語です
40:25 - 40:27

重要ではないので
スコア法は詳しく説明しませんが
40:27 - 40:30

スコアによってランクされています
40:30 - 40:34

翻訳するためには
実際は20よりはもっと多い数を使います
40:34 - 40:36

ここで20に止めているのは
20以上あった場合ー
40:36 - 40:38

物理学のシミュレーションのようなもので
40:38 - 40:40

これらを動かすとくねくね動きます
40:40 - 40:42

20以上だとコンピュータがおかしくなります
40:46 - 40:47

これはデモなんです
40:56 - 40:58

（聴衆11）
ウィキメディア財団のレイラです
40:58 - 41:00

プレゼンテーション中に
41:00 - 41:03

ウィキメディア財団について
何度かコメントされていましたが
41:03 - 41:06

ウィキデータとのデータ送入や
41:06 - 41:09

コラボレーションをご希望であれば
41:09 - 41:11

ウィキメディア・ドイツに
41:11 - 41:13

相談された方が良いのでは？
41:13 - 41:16

ウィキデータは
ウィキメディア・ドイツ内にあり
41:16 - 41:18

チームもそこにいて
41:18 - 41:21

ウィキデータに関わる
ボランティアのコミュニティが
41:22 - 41:28

データ送入やパンレックスをウィキデータに
近づける取り組みについて
41:28 - 41:31

話し合う最適の場所だと思うんです
41:31 - 41:33

どうも有難うございます
41:33 - 41:38

正直言って細かい組織構造のことや
41:38 - 41:40

プロジェクトの関係について
良く知らないのでー
41:40 - 41:42

笑い声が聞こえるので
複雑なんでしょうね
41:43 - 41:45

基本的に
ウィキデータの責任者であれば
41:45 - 41:49

誰でも良いので話をしたいです
41:51 - 41:53

[聞き取り不能] をさせてもらえば
41:53 - 41:55

ウィキデータの責任者の方とね
41:57 - 41:59

すなわちボランティアの皆さんと
お話しがしたいです
42:04 - 42:05

他にご質問は？
42:10 - 42:15

追加でご質問がある方や
42:15 - 42:17

お話したことについて
もっと詳しく聞きたい方は
42:17 - 42:21

話しかけて下さい
私も興味がありますから
42:21 - 42:24

語彙関係について取り組まれていたり
42:24 - 42:28

絶滅の危機に瀕している少数言語や
42:28 - 42:32

サポートの少ない言語に関わっていたら
お話ししましょう
42:32 - 42:34

ユニコードもやるので関心があります
42:37 - 42:38

有難うございました
42:38 - 42:40

登壇させて頂き感謝してます
42:40 - 42:42

皆さんにとり面白い話だったら光栄です
（拍手）

Title:: cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:: English
Duration:: 42:53

Bar Sch edited Japanese subtitles for cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Japanese subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)