< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

  • 0:00 - 0:02
    [基調講演]
  • 0:03 - 0:06
    [ベンジャミン・ヤン (パンレックス)]
  • 0:06 - 0:07
    地球上には今
  • 0:07 - 0:11
    約7.500種の言語があります
  • 0:12 - 0:20
    推測では そのうち7割が
    21世紀中に消滅するとされています
  • 0:22 - 0:25
    ある言語が死滅するたびに
  • 0:25 - 0:28
    数百年 数千年と続いていた
  • 0:28 - 0:32
    繋がりが断ち切られます
  • 0:32 - 0:38
    文化 歴史 伝統
    そして知識への繋がりが断絶します
  • 0:39 - 0:42
    言語学者 ケネス・ヘイルは
    こう言いました
  • 0:42 - 0:44
    言語が死ぬたびに
  • 0:44 - 0:47
    ルーブルに原子爆弾が
    落とされているようなものだと
  • 0:49 - 0:52
    そこで質問です
  • 0:53 - 0:55
    言語はなぜ死ぬのでしょうか
  • 0:56 - 1:00
    簡単な解答として思いつくのは
  • 1:00 - 1:03
    権威主義的な政府が
  • 1:03 - 1:06
    ある民族が自らの言語を
    話すことを禁ずる場合や
  • 1:06 - 1:10
    学校で母国語を話す子供が
    罰せられる場合
  • 1:10 - 1:13
    あるいは少数言語のラジオ局を
  • 1:13 - 1:15
    政府が強制閉鎖するような例です
  • 1:15 - 1:17
    過去には間違いなく起きてきたことで
  • 1:17 - 1:19
    今日でもある程度起きていることです
  • 1:20 - 1:23
    しかし本当の答えとしては
  • 1:23 - 1:27
    ほとんどの言語死滅は
  • 1:27 - 1:29
    もっと単純で
  • 1:29 - 1:33
    簡単に説明できるものなのです
  • 1:34 - 1:36
    ひとつの世代から次の世代へと
  • 1:36 - 1:38
    継承されないことにより
  • 1:38 - 1:40
    言語は消滅するのです
  • 1:42 - 1:44
    少数言語を話す人が
  • 1:44 - 1:46
    子供をもうけるたびに
  • 1:47 - 1:50
    算段をするんです
  • 1:51 - 1:53
    このように自問します
  • 1:54 - 1:57
    自分の言語を子供に継承すべきか
  • 1:57 - 2:01
    それとも主流言語だけを教えるべきかと
  • 2:01 - 2:06
    実際には その人の頭の中には
    計りがあるんです
  • 2:07 - 2:08
    計りの一方にはー
  • 2:10 - 2:15
    今までの人生で母国語を
  • 2:15 - 2:19
    意思疎通や
    伝統文化に触れるために使うたびに
  • 2:20 - 2:22
    左側に重石が置かれています
  • 2:23 - 2:26
    逆に 母国語が使用できず
  • 2:26 - 2:28
    主流言語を使わざるを得ないたびに
  • 2:28 - 2:30
    右側に重石が置かれています
  • 2:32 - 2:35
    母国が話せるという自信と誇りにより
  • 2:35 - 2:37
    左側に置かれている重石の方が
  • 2:37 - 2:39
    少し重くなっています
  • 2:39 - 2:42
    でも 徐々に右側に重石が溜まってきて
  • 2:43 - 2:45
    いずれ計りが右に傾きます
  • 2:45 - 2:46
    そうすると その人が
  • 2:46 - 2:49
    母国語を継承するかどうか
    決断する時が訪れた際に
  • 2:49 - 2:53
    母国語が祝福すべきものではなく
    重荷として感じられてしまうのです
  • 2:55 - 2:59
    次の質問は
    これをどうやって反転させるかです
  • 2:59 - 3:02
    まず第一に 次の事実があります
  • 3:04 - 3:05
    どんな言語でも
  • 3:05 - 3:08
    使用可能な社会的範囲が
    あるということです
  • 3:08 - 3:11
    今日 話されている
    全ての母国語は
  • 3:11 - 3:13
    その家族同士で
    使用することができます
  • 3:14 - 3:17
    コミュニティ内で使用可能な言語は
    やや少なくなり
  • 3:17 - 3:19
    より広い地域で使用できるのは
    もっと少ないでしょう
  • 3:20 - 3:22
    国際的な意思疎通に使えるとなると
  • 3:23 - 3:25
    一握りの言語になります
  • 3:26 - 3:29
    また これらの領域それぞれにおいても
  • 3:29 - 3:32
    母国語を教育やビジネス
  • 3:32 - 3:38
    またはテクノロジーに使えるか
    という問題があります
  • 3:39 - 3:42
    ご説明していることを
  • 3:43 - 3:45
    分かりやすくするため
  • 3:45 - 3:46
    例え話をご紹介します
  • 3:48 - 3:50
    あなたが今まで夢に見ていた
  • 3:50 - 3:52
    インド旅行に行くとしましょう
  • 3:53 - 3:56
    乗り換えでイスタンブールに
    8時間滞在するとします
  • 3:57 - 4:01
    トルコを訪問する予定はありませんでしたが
  • 4:01 - 4:04
    一時滞在することもあり
  • 4:04 - 4:06
    トルコ人の友人が
    空港の近くの
  • 4:06 - 4:08
    美味しいレストランを
    教えてくれたので
  • 4:08 - 4:11
    あなたは滞在中に
    寄ってみることにしました
  • 4:11 - 4:13
    空港を出て
  • 4:14 - 4:16
    レストランに着き
  • 4:16 - 4:17
    メニューを受け取ると
  • 4:17 - 4:19
    それはトルコ語だけのものでした
  • 4:20 - 4:23
    この話の前提として
  • 4:23 - 4:25
    あなたはトルコ語は話せないとします
  • 4:25 - 4:27
    どうしますか?
  • 4:28 - 4:30
    最良のケースとしては
  • 4:30 - 4:32
    あなたの母国語ー
  • 4:32 - 4:34
    ドイツ語や英語を
    話す人を見つけることです
  • 4:36 - 4:38
    でも その日は運が悪く
  • 4:38 - 4:41
    レストランにドイツ語も英語も
    話せる人はいません
  • 4:42 - 4:43
    さあ どうします?
  • 4:43 - 4:46
    私だったらー
    大多数の方もそうでしょうがー
  • 4:46 - 4:48
    テクノロジーに解を求めます
  • 4:50 - 4:52
    自動翻訳機か電子辞書を使って
  • 4:53 - 4:54
    一語ずつ検索して行けば
  • 4:54 - 4:58
    最終的に 美味しいトルコ料理が
    注文できるでしょう
  • 5:00 - 5:03
    次のこんなシナリオを考えてみましょう
  • 5:04 - 5:06
    あなたは少数言語が母国語です
  • 5:08 - 5:09
    例えば低地ソルブ語
  • 5:09 - 5:12
    低地ソルブ語は ここドイツで
    絶滅の危機に瀕している言語です
  • 5:13 - 5:17
    ここから130キロほど南東で
  • 5:18 - 5:21
    既に多くが年老いた
    数千人が使用しています
  • 5:23 - 5:25
    この低地ソルブ語が母国です
  • 5:25 - 5:27
    レストランに着きました
  • 5:27 - 5:29
    当然ながら そのレストランに
  • 5:29 - 5:31
    あなたの母国語を話す人がいる確率は
    ほとんどありません
  • 5:32 - 5:36
    またテクノロジーに
    解を求めても良いですが
  • 5:37 - 5:39
    あなたの母国語には
  • 5:39 - 5:42
    テクノロジーによる
    解は提供されていません
  • 5:42 - 5:45
    ドイツ語か英語を中間言語として
  • 5:45 - 5:48
    トルコ語に翻訳して
    もらうしかないのです
  • 5:49 - 5:52
    結局は 美味しいトルコ料理が
    食べられた訳ですが
  • 5:52 - 5:55
    これが自分の祖父だったとしたら
  • 5:55 - 5:57
    ドイツ語が話せないため
    難しかっただろうと考えます
  • 5:58 - 6:00
    これ自体は小さなことですが
  • 6:00 - 6:05
    結果的に計りの右側に重石が置かれ
  • 6:05 - 6:07
    あなたは 多分
  • 6:07 - 6:10
    子供が生まれたら
    または次の子が生まれた場合は
  • 6:11 - 6:13
    母国語を保つために
  • 6:13 - 6:17
    このような苦労は
    させたくはないと考えるでしょう
  • 6:19 - 6:21
    もっと重要な局面で
  • 6:21 - 6:26
    同様のことが起きたとしたら
    どうでしょう
  • 6:26 - 6:28
    例えば病院にいるときなどです
  • 6:31 - 6:36
    ここで 我々は手助けができます
  • 6:37 - 6:40
    我々とは
    ここに今いる私たちのことです
  • 6:41 - 6:43
    手助けをするツールがあるんです
  • 6:45 - 6:47
    少数言語や
    サポートの少ない言語を話す人々にも
  • 6:47 - 6:49
    テクノロジー・ツールが提供されれば
  • 6:51 - 6:54
    計りの左側を少しだけ
    指で押してあげられるんです
  • 6:54 - 6:58
    その人は 外界と交流するために
    少数言語に頼る必要があると
  • 6:58 - 7:00
    考えなくても良くなるのです
  • 7:00 - 7:03
    なぜなら その人の社会的な活動範囲が
  • 7:03 - 7:06
    わずかながら拡大するからです
  • 7:08 - 7:10
    もちろん 理想的な解決策は
  • 7:10 - 7:13
    世界の全ての言語で
    自動翻訳が可能となることですが
  • 7:13 - 7:17
    残念ながら現実的ではありません
  • 7:17 - 7:20
    自動翻訳は巨大な
    テキストのコーパスを必要としますが
  • 7:20 - 7:23
    絶滅に直面していたり
    サポートの少ない言語の多くは
  • 7:23 - 7:25
    そのようなデータが存在しません
  • 7:26 - 7:29
    言語によっては
    一般的に表記もされていないため
  • 7:29 - 7:33
    自動翻訳機を構築するために必要な
    データ量を集めることは
  • 7:33 - 7:34
    現実的ではありません
  • 7:34 - 7:38
    でも 語彙的なデータは存在します
  • 7:40 - 7:46
    過去数百年にわたる
    数多くの言語学者の尽力により
  • 7:48 - 7:50
    世界の多くの言語に関し
  • 7:50 - 7:52
    辞書や文法書が出版されています
  • 7:54 - 7:56
    でも残念ながら
  • 7:56 - 8:01
    その出版物の多くは
    広く行き渡っておらず
  • 8:01 - 8:04
    少数言語の話し手にも
    入手は困難です
  • 8:04 - 8:06
    これは意図的にそうなってる訳ではなく
  • 8:06 - 8:11
    多くの場合は
    単に辞書の初版が少なく
  • 8:11 - 8:13
    存在するものは
  • 8:13 - 8:16
    大学の図書館の片隅で
    カビを生やしているだけなのです
  • 8:18 - 8:21
    でも 私たちはそのデータを入手し
  • 8:21 - 8:23
    世界にアクセスさせることができるのです
  • 8:24 - 8:26
    ウィキメディア財団は
  • 8:26 - 8:31
    データを地球上の人類の大多数に
    データを届けられる
  • 8:31 - 8:33
    最良の機関のひとつー
  • 8:33 - 8:37
    いや最良の機関だと言えます
  • 8:39 - 8:40
    だから頑張りましょう
  • 8:41 - 8:43
    我々がこの領域で
  • 8:43 - 8:45
    何をしてきたか少し説明するため
  • 8:45 - 8:48
    私の団体である
    パンレックスをご紹介します
  • 8:49 - 8:50
    この問題解決のため
  • 8:50 - 8:54
    語彙データを収集しようとしている団体です
  • 8:55 - 8:57
    我々は12年前に
  • 8:57 - 9:00
    ワシントン大学で
    研究プロジェクトとして始まりました
  • 9:00 - 9:01
    理念としてあったのは
  • 9:01 - 9:04
    推論的翻訳が
  • 9:04 - 9:07
    効果的な翻訳機となり得ることを
    証明することでした
  • 9:07 - 9:09
    要するに語彙的な翻訳機です
  • 9:09 - 9:12
    これがパンレックスのデータの実例です
  • 9:13 - 9:18
    トルコ語で「家」を意味する「エヴ」を
  • 9:18 - 9:21
    さきほど述べた低地ソルブ語に
    翻訳する方法を示しています
  • 9:21 - 9:24
    トルコ語から低地ソルブ語の辞書を
  • 9:24 - 9:26
    みつけるのは難しいでしょうが
  • 9:26 - 9:30
    いろいろな中間言語を通すことにより
  • 9:31 - 9:33
    効果的な翻訳が可能です
  • 9:34 - 9:37
    研究プロジェクトの結果を受け
  • 9:37 - 9:40
    パンレックス創立者の
    ジョナサン・プール博士は
  • 9:41 - 9:44
    「実際にやろうじゃないか」と
  • 9:44 - 9:46
    非営利団体を設立し
  • 9:46 - 9:49
    語彙データを大量に集め
    提供することにしたのです
  • 9:49 - 9:51
    これが我々の過去12年の営みです
  • 9:51 - 9:55
    その間 数千種類の辞書を集め
  • 9:55 - 9:57
    語彙データを抽出し
  • 9:57 - 10:01
    推論的語彙翻訳を可能にする
    データベースを構築しました
  • 10:01 - 10:04
    翻訳対象言語は
  • 10:04 - 10:06
    現時点で世界の7,500言語のうち
  • 10:06 - 10:08
    約5,500言語をカバーしています
  • 10:10 - 10:12
    我々は常に対象言語を広げ
  • 10:12 - 10:15
    各言語内でもデータ量を拡大する
    努力を続けています
  • 10:18 - 10:21
    そこで 次の質問は
  • 10:22 - 10:26
    どのような協働ができるかです
  • 10:27 - 10:28
    パンレックスでは
  • 10:28 - 10:31
    最近ウィキデータが開発している語彙データに
  • 10:31 - 10:34
    大いに関心を持っています
  • 10:35 - 10:37
    我々と同じような領域で
  • 10:37 - 10:41
    異なる側面から研究をしている
    団体がいるというのは素晴らしいことです
  • 10:42 - 10:44
    ウィキデータの活動結果に
  • 10:45 - 10:47
    とても期待しています
  • 10:47 - 10:51
    ウィキデータと協働することにも
    期待しています
  • 10:54 - 10:56
    我々が過去12年間で培ってきた
  • 10:56 - 10:58
    語彙データの収集だけでなく
  • 10:58 - 11:02
    データベースのデザインも含めた
    特別なスキルが
  • 11:02 - 11:04
    ウィキデータにとっても
    有益なものになるでしょう
  • 11:05 - 11:07
    その一方で
  • 11:08 - 11:11
    データをクラウドソーシングする
  • 11:12 - 11:15
    ウィキデータの能力にも
    特に期待しています
  • 11:15 - 11:18
    現在パンレックスのデータソースはすべて
  • 11:18 - 11:21
    印刷された語彙データや
    その他の語彙ソースであり
  • 11:21 - 11:23
    クラウドソーシングはやってません
  • 11:23 - 11:25
    それを可能にする
    インフラがないのです
  • 11:25 - 11:27
    そしてウィキメディア基金はもちろん
  • 11:27 - 11:29
    クラウドソーシングの
    世界的なエキスパートです
  • 11:31 - 11:34
    お互いのスキルを
    具体的にどのように活用できるか
  • 11:34 - 11:36
    非常に楽しみにしています
  • 11:39 - 11:40
    これらの取り組みに関して
  • 11:40 - 11:42
    全体として重要なことは
  • 11:42 - 11:45
    作業をしていると
    細部にこだわってしまうということです
  • 11:45 - 11:48
    我々の作業は
    文法書を見たり
  • 11:48 - 11:52
    辞書や古語辞典を調べたり
  • 11:52 - 11:54
    時には最近出版された辞書を使い
  • 11:54 - 11:58
    文章中の言葉を確認していると
  • 11:58 - 12:00
    その言語に密着している気になります
  • 12:00 - 12:03
    しかし たまに一歩引くことが必要です
  • 12:03 - 12:05
    自分たちがやっていることが
  • 12:05 - 12:09
    つまらないことのような
    気がすることがあっても
  • 12:10 - 12:12
    非常に大切な取り組みなんです
  • 12:13 - 12:16
    これは私の意見になりますが
  • 12:16 - 12:19
    絶滅しそうな言語を支援し
  • 12:19 - 12:22
    地球上の言語の多様性が
  • 12:22 - 12:26
    今世紀末からその先まで保たれるための
    最良の方法だと信じています
  • 12:26 - 12:30
    今日の我々の活動により
  • 12:30 - 12:33
    言語が保存され継承され
  • 12:33 - 12:35
    絶滅の目を見ないことに
  • 12:35 - 12:37
    つながる可能性は十分あります
  • 12:39 - 12:41
    だから 覚えていてください
  • 12:41 - 12:43
    あなたが コンピュータの前に座って
  • 12:43 - 12:45
    個別のエントリーを編集したり
  • 12:45 - 12:52
    少数言語のすべての名詞を
    データ入力しているとき
  • 12:52 - 12:55
    自分がやっている
    その小さな作業が
  • 12:55 - 12:59
    その言語が今世紀末からその先まで
    存続できるための
  • 12:59 - 13:01
    責任の一部を担っている
    可能性があるということです
  • 13:03 - 13:04
    有難うございました
  • 13:04 - 13:06
    ご質問を受けたいと思います
  • 13:06 - 13:07
    (拍手)
  • 13:24 - 13:25
    (聴衆1)ありがとう
  • 13:25 - 13:27
    お話し有難うございました
  • 13:27 - 13:29
    辞書について質問があります
  • 13:29 - 13:31
    印刷された辞書で作業をすると
    おっしゃいましたね
  • 13:31 - 13:32
    はい
  • 13:32 - 13:35
    その辞書から
    何を抽出されてますか
  • 13:35 - 13:38
    また著作権などの問題に
    対処する必要はありますか
  • 13:38 - 13:41
    これが最初の質問になるだろうと
    予想していましたよ(笑)
  • 13:43 - 13:46
    まず パンレックスでは
  • 13:46 - 13:50
    法的なアドバイスを得た結果
  • 13:53 - 13:58
    辞書の編纂 編集は著作権で
    守られ得るものの
  • 13:58 - 14:03
    その中の翻訳自体は
    著作権の対象外であると考えています
  • 14:04 - 14:12
    好例として 米国法においては
    電話帳は著作権対象とされていますが
  • 14:12 - 14:18
    Xという人物の電話番号がDという
    事実は著作権対象となりません
  • 14:23 - 14:25
    法律の専門家によれば
  • 14:25 - 14:27
    この問題には対処できるわけです
  • 14:27 - 14:31
    仮に この主張が法的に
    不十分であったとしても
  • 14:31 - 14:32
    重要な点は
  • 14:32 - 14:38
    ほとんどの語彙データに関し
  • 14:39 - 14:41
    著作権保護期限が過ぎているという点です
  • 14:41 - 14:44
    ですから多くのデータが
    著作権の問題なく利用できるのです
  • 14:44 - 14:50
    また 最近出版された辞書で作業をする場合は
  • 14:50 - 14:52
    スキャンして
    光学文字認識するのではなく
  • 14:52 - 14:54
    辞書の作成者に
    Eメールしちゃいます
  • 14:54 - 14:57
    実際には 大抵の言語学者は
  • 14:57 - 15:00
    とても喜んで自分のデータを公開してくれます
  • 15:00 - 15:04
    「もちろんです 全部データベースに加えて
    アクセス可能にしてください」という感じです
  • 15:07 - 15:10
    このように 法的見解に基づけば大丈夫ですが
  • 15:10 - 15:12
    そこに不安がある場合でも
  • 15:12 - 15:16
    データを広くアクセス可能とすることは
    さほど難しくはありません
  • 15:27 - 15:29
    (聴衆2)有難うございます
    こんにちは
  • 15:29 - 15:32
    低地ソルブ語を話す人が
  • 15:32 - 15:35
    どのようにデータにアクセスしているか
    もう少し説明して頂けますか
  • 15:35 - 15:39
    情報が具体的に
    どのように届けられるのか
  • 15:39 - 15:40
    そして その人たちに
  • 15:40 - 15:43
    データを利用してみるよう
    どうやって説得するのかー
  • 15:43 - 15:44
    とても良い質問です
  • 15:44 - 15:47
    私もそのことについて
    良く考えています
  • 15:47 - 15:50
    データアクセスというものは
  • 15:51 - 15:54
    実際には 複数のステップがあるんです
  • 15:54 - 15:56
    一つ目は データ保存ですー
    データが消滅しないようにします
  • 15:56 - 15:59
    二つ目は データの相互運用性を確保して
  • 15:59 - 16:02
    誰でも活用できるようにすることです
  • 16:02 - 16:06
    三つ目は データにアクセスが
    可能であることです
  • 16:06 - 16:09
    パンレックスの場合では
  • 16:09 - 16:10
    APIを提供していますが
  • 16:10 - 16:13
    当然ながらエンドユーザーには
    活用してもえません
  • 16:13 - 16:15
    そこでインターフェースも
    開発しました
  • 16:17 - 16:20
    例えば translate.panlex.org に行けば
  • 16:21 - 16:23
    我々のデータバース上で
    翻訳ができます
  • 16:23 - 16:26
    APIを試してみたければ
    dev.panlex.org に行って
  • 16:26 - 16:29
    APIが試せます
    api.panlex.org からも行けます
  • 16:30 - 16:33
    でも もう一つのステップが必要です
  • 16:34 - 16:37
    素晴らしく便利なツールを使って
  • 16:37 - 16:41
    データを完璧にアクセス可能にしても
  • 16:42 - 16:44
    そのツールを宣伝しないと
  • 16:44 - 16:46
    人々に実際に使ってもらえません
  • 16:46 - 16:51
    これは余り話題にのぼりませんが
  • 16:52 - 16:54
    私も良い解答を持っていません
  • 16:56 - 17:00
    例えば 私もつい数年前までは
    ウィキデータのことを知りませんでした
  • 17:00 - 17:03
    まさしく私が関心を持っている
    ものにも関わらずです
  • 17:03 - 17:07
    どうやって宣伝すれば良いのでしょうか?
  • 17:07 - 17:09
    今 答えがあるとは思っていません
  • 17:09 - 17:11
    私自身も良い解答をもっていません
  • 17:12 - 17:13
    もちろん そのためには
  • 17:13 - 17:15
    最初のステップを完了する必要があります
  • 17:23 - 17:25
    (聴衆3)機械翻訳のためには
  • 17:25 - 17:29
    翻訳メモリーが必要ではないですか?
  • 17:29 - 17:32
    我々はウィキデータに個別の言葉や
  • 17:33 - 17:37
    短いフレーズを
  • 17:37 - 17:41
    通常のウィキデータ項目や
    ウィキデータ語彙素として入力していますが
  • 17:41 - 17:44
    ちゃんとした翻訳に
    十分なものかどうかわかりません
  • 17:44 - 17:47
    機械翻訳には完全な文が必要だと思うんです
  • 17:47 - 17:49
    (ベンジャミン)その通りですね
  • 17:49 - 17:52
    (聴衆3)データ構造は
    どうやって入手するんですか?
  • 17:52 - 17:55
    現時点でウィキデータが
  • 17:55 - 17:59
    翻訳メモリーの問題を
  • 17:59 - 18:04
    上手く処理できるかどうかわかりません
  • 18:04 - 18:07
    translatewiki.net を使って
  • 18:07 - 18:10
    そのギャップを埋めることを
  • 18:10 - 18:15
    検討するべきなのでしょうか?
  • 18:16 - 18:18
    ご質問の主旨は良く分かります
  • 18:18 - 18:21
    さきほど少し触れましたが
    再度説明したいと思います
  • 18:22 - 18:25
    それがまさしくパンレックスが
    語彙データを扱っている理由です
  • 18:25 - 18:29
    そしてまた 私が機械翻訳エンジンや
    機械翻訳よりもー
  • 18:29 - 18:31
    というか機械翻訳に加えて
  • 18:31 - 18:35
    語彙データに興味がある
    理由でもあります
  • 18:35 - 18:39
    ご指摘の通り 機械翻訳は特別な種類の
    データを必要としますが
  • 18:40 - 18:44
    そのデータは世界の言語の大多数で
    入手ができません
  • 18:44 - 18:47
    世界の言語の大多数で
    入手不可能なんです
  • 18:47 - 18:49
    でもそれは諦める理由にはなりません
  • 18:49 - 18:51
    どうして諦めますか?
  • 18:52 - 18:55
    トルコレストランのメニューを
    翻訳するのであれば
  • 18:55 - 18:59
    語彙翻訳は最適なツールでしょう
  • 18:59 - 19:04
    語彙翻訳を使って 完璧な段落から段落への
    翻訳ができるとは言ってません
  • 19:04 - 19:07
    語彙翻訳という場合
    言葉から言葉への翻訳を指してますが
  • 19:07 - 19:09
    それでも とても便利な場合があります
  • 19:12 - 19:14
    考えてみればおかしいことですが
  • 19:14 - 19:17
    本当に優れた機械翻訳には
  • 19:17 - 19:20
    つい最近まで誰も
    アクセスがなかったわけですが
  • 19:21 - 19:24
    それでも辞書で何とかやって来れたんです
  • 19:24 - 19:28
    辞書はものすごく便利なリソースなんです
  • 19:29 - 19:30
    そのデータがあるんだから
  • 19:30 - 19:35
    世の中と その言語を話す人々に
    提供するべきです
  • 19:36 - 19:39
    (聴衆4)こんにちは
    どんなメカニズムがあるんですが
  • 19:39 - 19:41
    コミュニティー自身がー
    ここにいます
  • 19:41 - 19:43
    ああ そこですか
  • 19:43 - 19:47
    (聴衆4)コミュニティ自身が
    パンレックスとデータを共有したくない場合?
  • 19:48 - 19:49
    良い質問です
  • 19:50 - 19:52
    その場合の対処法は
  • 19:53 - 19:56
    もし辞書が発行され
    公に入手可能であれば
  • 19:56 - 19:58
    良い指標だと考えています
  • 19:58 - 20:05
    本屋や大学の図書館で購入できたり
    公の図書館で誰でもアクセスできる場合
  • 20:05 - 20:09
    共有しても良いという意思が
    示されたと考えられます
  • 20:16 - 20:19
    マイクに向かって
    話していただけますか?
  • 20:19 - 20:21
    繰り返して頂けますか?
  • 20:21 - 20:24
    (聴衆4)言語学者は常にコミュニティの
    許可を得ているとは限りません
  • 20:24 - 20:28
    コミュニティの承諾を
    得ないで書物を発行することもあります
  • 20:28 - 20:29
    その通りだと思います
  • 20:32 - 20:35
    そういうことはあるでしょうが
  • 20:35 - 20:36
    ごく限られた場合であり
  • 20:37 - 20:41
    もっぱら北米に限定されたことと思います
  • 20:41 - 20:43
    南米の言語でも時々そういうことは起きますが
  • 20:44 - 20:46
    考慮する必要があることです
  • 20:47 - 20:52
    例えば パンレックスにあるデータについて
  • 20:52 - 20:56
    世間一般にアクセスさせてはならないと
    言われた場合
  • 20:56 - 20:58
    我々はそのデータを削除します
  • 21:01 - 21:04
    それは著作権を尊重するという
    意味ではありませんが
  • 21:04 - 21:07
    伝統的な
    コミュニティーの意見は聞きます
  • 21:07 - 21:08
    それは大きな違いです
  • 21:08 - 21:10
    (聴衆4)そのことを指してました
  • 21:14 - 21:17
    とても興味深い点に繋がるんです
  • 21:19 - 21:22
    時として 誰がその言語を話すかと
    いうことが大変重要になります
  • 21:23 - 21:28
    私の経験で
    アメリカの南西部を訪れて
  • 21:28 - 21:31
    プエブロ語を話す原住民のことを調べている
  • 21:31 - 21:33
    グループと協働したことがあります
  • 21:34 - 21:37
    そのエリアで話される
    プエブロ言語は
  • 21:37 - 21:39
    分類の仕方にもよりますが
  • 21:39 - 21:42
    6種類くらいあります
  • 21:42 - 21:45
    でも その言語は
    18種類のプエブロ族に分かれていて
  • 21:45 - 21:48
    それぞれが
    独自の族政府を持ち
  • 21:48 - 21:51
    それぞれの政府が
    自分たちの言語を
  • 21:51 - 21:54
    外界にアクセスさせるべきか否か
    独自の意見を持っています
  • 21:55 - 21:59
    ズリ・プエブロの場合を見てみましょう
  • 21:59 - 22:02
    ズリ語を話す
    唯一のプエブロですが
  • 22:02 - 22:05
    彼らは自分たちの言語が
    拡散することは大歓迎で
  • 22:05 - 22:07
    道路標識とか あちこちに表示しています
  • 22:09 - 22:11
    でも他の言語では
  • 22:11 - 22:13
    あるグループは
  • 22:13 - 22:17
    「我々の言語は よそ者に
    アクセスさせたくない」と言い
  • 22:17 - 22:19
    同じ言語を話す
    隣のプエブロは
  • 22:19 - 22:23
    「このテクノロジー・ツールを使って
  • 22:23 - 22:25
    外界の者に
    我々の言語にアクセスして欲しい
  • 22:25 - 22:28
    我々の言語に永続して欲しい」と言うんです
  • 22:28 - 22:30
    難しい倫理的問題を提示します
  • 22:30 - 22:31
    もし画一的に
  • 22:31 - 22:35
    「分かりました このグループの希望だから
    断絶します」としたら
  • 22:35 - 22:38
    もう一方のグループの
    積極的に断絶を回避したいという
  • 22:38 - 22:40
    意思に反していることになります
  • 22:40 - 22:43
    この問題には簡単な答えはありません
  • 22:43 - 22:47
    パンレックスでは
  • 22:47 - 22:49
    私が知る限りでは
  • 22:49 - 22:52
    まだ このような問題に遭遇していませんが
  • 22:52 - 22:54
    でも それはもしかするとー
  • 22:54 - 22:56
    彼の質問に戻りますがー
  • 22:56 - 22:58
    もっと宣伝すれば良いのかも知れません
  • 22:59 - 23:00
    でも 一般的には
  • 23:01 - 23:05
    知る限り
    この問題は発生していません
  • 23:06 - 23:08
    我々の対応策としては
  • 23:08 - 23:11
    あるコミュニティがデータを
    提供したくないと言えば
  • 23:11 - 23:12
    我々はデータベースから削除します
  • 23:12 - 23:15
    ウィキデータやウィキペディアでも
    同様なことに遭遇しています
  • 23:15 - 23:18
    - あるんですか?
    - (聴衆4)コメント等で問題に…
  • 23:18 - 23:21
    特に写真などのコメントで
    問題になることは考えられますね
  • 23:21 - 23:22
    (聴衆4)その通り
  • 23:28 - 23:33
    (聴衆5)クラウドソーシングの質問です
  • 23:33 - 23:37
    コミュニティに対し
  • 23:37 - 23:41
    データセットへの注釈や
    データの追加を求めるとき
  • 23:41 - 23:44
    ちょっと気が引けるのは
  • 23:44 - 23:49
    編集者としては
    足りないものしか見えてないということです
  • 23:49 - 23:53
    でもアイディアがあって
    時間をかけて
  • 23:53 - 23:57
    優先事項のリストを持つことは
  • 23:58 - 24:01
    その面では
    モチベーションに繋がると思います
  • 24:01 - 24:03
    私が興味があったのは
  • 24:03 - 24:08
    あなた方が データのギャップを
    知るようなシステムを持ってるかどうかです
  • 24:08 - 24:11
    言語学的なエビデンスに基づき
  • 24:11 - 24:16
    これらも注釈をつければ
    影響力の大きいドライバーになるだろうとか
  • 24:16 - 24:20
    例えば「家」の語彙素を持つことは
  • 24:20 - 24:25
    データ類の語彙素よりも
    インパクトが大きいことは想像できます
  • 24:26 - 24:29
    そのデータがあれば
  • 24:29 - 24:36
    コミュニティの努力を推進するために
    使えるかどうか興味があります
  • 24:36 - 24:37
    良い質問です
  • 24:37 - 24:41
    ウィキデータが
    沢山持っているものにー
  • 24:41 - 24:45
    失礼 パンレックスが沢山持ってるのは
    スワデシュ・リストです
  • 24:45 - 24:49
    面白いことに 我々は世界最大の
    スワデシュ・リストを持ってるようです
  • 24:49 - 24:51
    スワデシュ・リストを
    ご存知でない場合
  • 24:51 - 24:54
    規則化された語彙のリストで
  • 24:54 - 25:00
    言語分析に使用されます
  • 25:00 - 25:04
    とても基本的なリストで構成されています
  • 25:04 - 25:06
    2種類のスワデシュ・リストががありますが
  • 25:06 - 25:08
    100または213項目からなり
  • 25:08 - 25:13
    「家」「目」「肌」のような
  • 25:13 - 25:17
    どんな言語にもあるような
    基本的な言葉が含まれています
  • 25:18 - 25:23
    そのようなデータを提供するには
    とても良い出発点だと思います
  • 25:30 - 25:31
    さきほど申し上げた通り
  • 25:31 - 25:34
    我々はまだ
    クラウドソーシングをしていませんが
  • 25:34 - 25:37
    開始予定であることを
    とても喜んでいます
  • 25:37 - 25:40
    今回のコンファレンスで皆さんに
  • 25:40 - 25:44
    クラウドソーシングの活用法や
    その裏のロジスティクスについて
  • 25:44 - 25:47
    お伝えできることが嬉しいです
  • 25:47 - 25:49
    すると こういう質問を受ける訳です
  • 25:51 - 25:54
    だから 私からの答えとしては
  • 25:54 - 25:56
    優先事項のリストがあるということです
  • 25:56 - 25:57
    間違いなく言えるのは
  • 25:57 - 26:00
    探している言語の優先リストがあると
    いうことです
  • 26:00 - 26:02
    どう取り組んでいるかと言うと
  • 26:02 - 26:05
    テクノロジー・ソリューションの
    恩恵を受けてない言語を探します
  • 26:05 - 26:07
    それは多くの場合 少数言語で
  • 26:11 - 26:13
    我々はそういったものを優先します
  • 26:15 - 26:21
    我々が新たに取得するデータは
    一般的には語彙項目であり
  • 26:21 - 26:24
    実質的には辞書を丸々
    吸収するということです
  • 26:24 - 26:27
    我々は辞書が選択する
  • 26:27 - 26:28
    語彙項目に依存しています
  • 26:28 - 26:32
    全ての言語で「家」という言葉を
    探す訳ではありません
  • 26:32 - 26:35
    でも データのクラウドソーシングの場合
    そのようなアプローチになります
  • 26:36 - 26:38
    だから これは研究と成長の機会なんです
  • 26:40 - 26:43
    (聴衆6)ヴィクターです
    本当にすごいですね
  • 26:44 - 26:47
    スライドがありますが
  • 26:48 - 26:51
    ウィキデータとパンレックスの間の
  • 26:51 - 26:53
    データと情報の流れに関する
  • 26:53 - 26:57
    現在の技術的な状況について
    説明して頂けますか
  • 26:58 - 27:01
    既に実行に移されているのか
  • 27:01 - 27:04
    そしてパンレックスとウィキデータの間の
  • 27:04 - 27:08
    情報の相互交通
    またはフィードバック・ループ情報に
  • 27:08 - 27:10
    どう対処しているのでしょうか
  • 27:10 - 27:14
    現時点ではウィキデータと
    フォーマルな接続はしていません
  • 27:14 - 27:18
    先ほど述べた通り 今回ここで皆さんに
    是非紹介したいことなんです
  • 27:18 - 27:20
    ウィクショナリーとは既に
    交流が始まっていますが
  • 27:22 - 27:25
    正直言うと ウィキデータの方が
    我々が求めていることと
  • 27:25 - 27:26
    相性は良いはずです
  • 27:28 - 27:30
    語彙関係そのもののデータを持っているので
  • 27:30 - 27:33
    我々はデータ分析や抽出に
    余分な時間を費やす必要がありません
  • 27:34 - 27:38
    そこで答えは まだ接続していないが
    是非そうしたいということです
  • 27:38 - 27:41
    まだ接続していないなら
    何が障害なんですか?
  • 27:41 - 27:44
    ウィキデータはすでに
    幾つかの言語をサポートしていますが
  • 27:44 - 27:47
    translate.panlex.orgを参照すると
  • 27:47 - 27:50
    どうやら あなた方は
    多くの言語変種もサポートしており
  • 27:50 - 27:52
    ウィキデータより範囲は相当広いですね
  • 27:52 - 27:55
    翻訳や語彙翻訳ありきの
  • 27:55 - 27:57
    アプリケーションに対し
  • 27:57 - 28:01
    ナレッジ構造をマッピングする試みとの
  • 28:01 - 28:04
    ギャップについて
    どうお考えですか?
  • 28:04 - 28:06
    ナレッジのマッピングは
    確かにとても興味深いです
  • 28:06 - 28:12
    ウィキデータが語彙データを整理する方法
  • 28:12 - 28:17
    そして我々の方法について
    興味深いディスカッションがありました
  • 28:17 - 28:21
    マッピング戦略を要する
    微妙なデータの違いがありました
  • 28:21 - 28:25
    そのいくつかは
    自動化できませんが
  • 28:25 - 28:28
    それを可能にするテクニックが
    開発できるかも知れません
  • 28:28 - 28:31
    言語変種のことを話されましたが
  • 28:31 - 28:35
    我々は言語変種については
    非常に細かく分類しがちです
  • 28:35 - 28:37
    例えば あるデータソースが
  • 28:37 - 28:40
    パプアニューギニアの言語で
  • 28:40 - 28:42
    この方言が川の左側で話されると言い
  • 28:42 - 28:45
    別のソースが
    その方言は川の右側で話されると言えば
  • 28:45 - 28:47
    我々は それぞれ別の言語とし扱います
  • 28:47 - 28:51
    そのようにして できるだけ多くの
    データを保存しようとしているのです
  • 28:52 - 28:55
    それをウィキデータの方法に
    マッピングできるようにするにはー
  • 28:55 - 28:58
    私が是非意見交換したいのは
  • 28:58 - 29:01
    ウィキデータで言語が
  • 29:01 - 29:06
    どのように指定されるかという点です
  • 29:08 - 29:12
    先ほどの通り 我々は細密分類の
    戦略を取ってますから
  • 29:14 - 29:18
    我々はもっぱらエスノローグが提供する
  • 29:18 - 29:20
    ISO 6393 コードに準拠していますが
  • 29:20 - 29:24
    各コード内で
    複数の言語変種を容認しています
  • 29:24 - 29:29
    例えば 文字変種や地域的な方言
    社会方言に対応するためです
  • 29:30 - 29:33
    これも 今後の議論や協働のトピックです
  • 29:36 - 29:40
    (聴衆7)光学文字認識 (OCR) の
    パイプラインについて教えてください
  • 29:41 - 29:45
    私たちもマヤ語で OCR に挑戦しており
  • 29:45 - 29:48
    なかなか結果が出ないもんですから
  • 29:48 - 29:50
    全く認識してもらえないんです
  • 29:50 - 29:51
    そうでしょうね(笑)
  • 29:54 - 29:57
    (聴衆7)パイプラインが開示できれば
  • 29:57 - 30:00
    もう一つの質問は
    ISOコードの重複についてです
  • 30:00 - 30:05
    ソースによって
    これとこれは違う言語と言ったり
  • 30:05 - 30:08
    別のソースでは
    異なる扱いだったりして
  • 30:08 - 30:11
    先ほどおっしゃった通り
    重複することが多いので
  • 30:11 - 30:13
    どう対応されていますか?
  • 30:13 - 30:16
    素晴らしい質問ですね
  • 30:18 - 30:21
    正式なOCRパイプラインはありませんが
  • 30:21 - 30:24
    ソースごとに取り組んでいます
  • 30:24 - 30:25
    なぜかと言うと
  • 30:25 - 30:30
    OCRを必要としないソースも多い一方で
  • 30:30 - 30:32
    OCRが入手可能な言語もあるので
  • 30:32 - 30:33
    作業が楽な後者に専念しています
  • 30:33 - 30:36
    当然ながら 着手予定のソースで
  • 30:36 - 30:38
    詳細な研究を進める場合は
  • 30:38 - 30:41
    OCRパイプラインを
    充実させる必要があります
  • 30:41 - 30:45
    でも 別の面もあって
    おっしゃった通り
  • 30:45 - 30:48
    OCRエンジンを設計した人たちは
  • 30:48 - 30:53
    どれくらいストレステストできるか
    認識していないんだと思います
  • 30:53 - 30:57
    だって何が楽しいかと言えばー
  • 30:57 - 30:59
    ロシア語対チベット語辞書のOCRとか
  • 30:59 - 31:01
    相当難しいですよね
  • 31:01 - 31:04
    結局諦めて
    タイプ入力してくれる人を雇いました
  • 31:04 - 31:06
    その方法でもできた訳です
  • 31:06 - 31:09
    実際に その女性はすごくて
  • 31:09 - 31:11
    チベット語を読むことを学んだロシア人で
  • 31:11 - 31:13
    タイプ入力してくれ 大変助かりました
  • 31:17 - 31:19
    ラテン系の文字を扱っている場合は
  • 31:19 - 31:23
    充実したOCRソリューションは開発可能で
  • 31:23 - 31:25
    このような複数言語に対応でき
  • 31:25 - 31:31
    16世紀のマヤ語みたいなものを扱っていれば
    ランダムな4桁コードも対応できます
  • 31:32 - 31:36
    でも言語によっては
  • 31:36 - 31:41
    OCRが永久に追いつかなかったり
  • 31:41 - 31:44
    作業量がとてつもなく
    多すぎるものがあります
  • 31:44 - 31:47
    今この手法を活用しているのが
  • 31:47 - 31:50
    パンレックスの別のプロジェクトで
  • 31:50 - 31:54
    バリの全ての伝統文学を
    読み込んでおり
  • 31:54 - 31:58
    バリ語の手書き文字では
  • 31:58 - 32:01
    OCRは無理であることが分かったため
  • 32:01 - 32:03
    大勢のバリ人にタイプしてもらってます
  • 32:03 - 32:06
    バリで注目の文化プロジェクトとして
  • 32:06 - 32:09
    ニュースなどでも取り上げられました
  • 32:09 - 32:11
    OCRに依存する必要はないものの
  • 32:11 - 32:13
    世の中には色々なOCRがあるので
  • 32:13 - 32:16
    優れたソリューションがあるのは
    もちろん良いことです
  • 32:17 - 32:21
    超多言語OCRの専門家がいたら
  • 32:21 - 32:23
    是非声をかけてくださいね
  • 32:30 - 32:32
    (聴衆8)プレゼンテーション
    有難うございました
  • 32:32 - 32:34
    パンレックスとウィキデータの
  • 32:34 - 32:37
    統合についてお話しされましたが
  • 32:37 - 32:39
    詳細には触れられませんでしたので
  • 32:39 - 32:43
    あなたのデータライセンスを調べたら
    CC0でした
  • 32:43 - 32:44
    そうです
  • 32:44 - 32:47
    (聴衆8)いいですね
    二つの方法が可能と思います
  • 32:47 - 32:49
    データをインポートするか
  • 32:49 - 32:56
    または 完全なデータベースがある
    フリーベースを活用したような方法です
  • 32:56 - 32:59
    その時はインポートしてリンクを作成しました
  • 32:59 - 33:04
    リンクはフリーベースの
    データベースへの外部識別子を使いました
  • 33:06 - 33:09
    今回も同じようなことを考えてますか?
  • 33:09 - 33:14
    それとも単純に
    ウィキデータにリンクできる
  • 33:14 - 33:19
    独立したデータベースを
    作ろうと考えていますか?
  • 33:19 - 33:21
    とても良い質問で
  • 33:21 - 33:26
    私が今まで考えて来たことの
    一歩先を行っていると思います
  • 33:26 - 33:30
    なぜかと言えば
    さきほど申し上げた通り
  • 33:30 - 33:33
    両方のデータベースが
    一緒に働けるようにすることは
  • 33:33 - 33:34
    それだけで大きなステップだからです
  • 33:34 - 33:36
    まず可能な最初のステップは
  • 33:36 - 33:38
    文字通り お互いのスキルを
    混合することです
  • 33:38 - 33:41
    我々は 個別の語彙素のプロパティ分類に関し
  • 33:41 - 33:43
    多くの経験を持っていますので
  • 33:43 - 33:46
    喜んでシェアしたいと思ってますが
  • 33:46 - 33:49
    データベースそのものを
    リンクできれば素晴らしいです
  • 33:49 - 33:51
    是非できればと考えています
  • 33:51 - 33:54
    ウィキデータからパンレックスへの流れの方が
  • 33:54 - 33:56
    少し楽な気がしますが
  • 33:56 - 33:59
    方法がイメージできるから
    思い込んでるだけかも知れません
  • 34:02 - 34:08
    ウィキデータがライセンスなどに関し
    問題なければ
  • 34:08 - 34:10
    あるいは両者間で工夫すれば
  • 34:10 - 34:12
    とても良いアイディアだと思います
  • 34:12 - 34:16
    データそのものをリンクする方法さえ
    考えつけばいいんです
  • 34:16 - 34:20
    まず思うのは ウィキデータ上での編集が
  • 34:20 - 34:26
    瞬時にパンレックスのデータベース上にも
    反映されればいいなということです
  • 34:28 - 34:31
    毎回データを送り直す必要がなければ
  • 34:31 - 34:33
    ウィキデータが実質的に
  • 34:33 - 34:36
    パンレックスのクラウドソースの
    インターフェースになるわけで
  • 34:36 - 34:37
    最高だと思います
  • 34:37 - 34:40
    そうすればパンレックスを
    即時翻訳にも使え
  • 34:40 - 34:43
    ウィキデータ全体の語彙項目を使って
    翻訳ができる訳で
  • 34:43 - 34:44
    理想的ですね
  • 34:55 - 34:58
    (聴衆9)これは 推論で穴を埋めるという
  • 34:58 - 35:03
    セマンティック・ウェブの監査工程
    のようなものですね
  • 35:05 - 35:10
    このような翻訳について
    もっと考えてみた場合
  • 35:10 - 35:13
    語義や文法のミスマッチについて
  • 35:13 - 35:16
    どのように対処するんですか?
  • 35:16 - 35:19
    例えば ドイツ語を翻訳する場合
  • 35:19 - 35:22
    幾つかの言葉をまとめれば
  • 35:22 - 35:26
    それなりの結果が得られます
  • 35:26 - 35:29
    その一方で
    例えば 言語によっては
  • 35:29 - 35:34
    ドイツ語ほど
    色に関して詳細なシステムがないと
  • 35:34 - 35:41
    何かで読んだことがあります
  • 35:42 - 35:43
    すべての言語が色に関し
  • 35:43 - 35:46
    異なるシステムを使っている
    それとも同じとおっしゃいましたか?
  • 35:46 - 35:49
    (聴衆9)もしかすると
    言語の進化の話だったも知れません
  • 35:49 - 35:51
    最初は白か黒で始まり そしてー
  • 35:51 - 35:54
    色のヒエラルキーですね
  • 35:54 - 35:55
    実際に色のヒエラルキーは
  • 35:55 - 35:57
    この仕組みを説明するのに適しています
  • 35:59 - 36:02
    一つの中間言語がある場合ー
  • 36:02 - 36:05
    機械翻訳に関する論文を読むと興味深いです
  • 36:05 - 36:09
    仮想の中間言語について良く話していますが
  • 36:09 - 36:10
    「中間言語がある」と言ってる場合
  • 36:10 - 36:13
    読んでみると大抵「英語だ」と言ってます
  • 36:14 - 36:17
    この形態の語彙翻訳がしていることは
  • 36:17 - 36:21
    多くの異なる中間言語を介することにより
  • 36:21 - 36:27
    色々な語義の曖昧さに
    対応することができるのです
  • 36:27 - 36:30
    ある言葉の語義領域がそれなりに類似した
  • 36:30 - 36:33
    言語を介在させている限り
  • 36:33 - 36:36
    中間言語を通すことにより発生する
  • 36:36 - 36:40
    語義の曖昧さを回避することができますから
  • 36:40 - 36:43
    色のヒエラルキーの例をとれば
  • 36:43 - 36:46
    緑と青を表す言葉が一つしかない言語を
  • 36:47 - 36:54
    中間言語では 青と翻訳し
  • 36:54 - 36:57
    その色について異なる曖昧さを持つ
    別の言語にさらに翻訳した場合
  • 36:57 - 37:01
    語義的な曖昧さが発生してしまいます
  • 37:01 - 37:03
    でも やはり緑と青について
    一つの言葉しか持たない
  • 37:03 - 37:08
    他の言語をたくさん介在させることにより
  • 37:08 - 37:11
    その特定の語義を実際に
  • 37:11 - 37:17
    最終言語に伝えることができるのです
  • 37:17 - 37:21
    文法的な面については
  • 37:21 - 37:24
    パンレックスでは今まで
  • 37:24 - 37:30
    語彙素すなわち語彙形式を収集して来ました
  • 37:31 - 37:33
    要するに
    辞書の見出し語であれば
  • 37:33 - 37:35
    全て収集するということです
  • 37:35 - 37:38
    だから現時点では
  • 37:38 - 37:41
    文法的な変種形式は
    積極的には収集していません
  • 37:42 - 37:44
    例えば [聞き取り不能] データや
  • 37:44 - 37:45
    過去形 現在形などです
  • 37:45 - 37:47
    でも今後のこととして検討はしています
  • 37:47 - 37:49
    忘れてはならない点は
  • 37:49 - 37:51
    我々が重視しているのは
  • 37:51 - 37:54
    サポートの少ない言語や
    絶滅しそうな少数言語ですから
  • 37:55 - 37:57
    完璧を目指すよりは
  • 37:57 - 38:01
    せめて何かを提供することを
    優先しているということです
  • 38:01 - 38:03
    私が好きな言葉に
  • 38:03 - 38:06
    「完璧さを求める余り良い結果を逸するな」
    というものがあり
  • 38:06 - 38:07
    それを肝に命じています
  • 38:07 - 38:08
    でも 文法形式を扱ったり
  • 38:08 - 38:11
    異なる文法形式間で
  • 38:11 - 38:14
    翻訳できるようになることには
    とても興味があります
  • 38:14 - 38:16
    今まで ある程度は研究はしましたが
  • 38:16 - 38:17
    まだ 本格的に着手はしていません
  • 38:25 - 38:28
    世界の約7,500の言語について
  • 38:30 - 38:33
    表記された辞書を
    使っておられるのでしょうが
  • 38:33 - 38:38
    その全ての言語が
    標準的な表記法を持っているのでしょうか
  • 38:38 - 38:40
    良い質問ですね
  • 38:42 - 38:45
    これらの言語の多くが
  • 38:45 - 38:48
    皆さんご存じの通り
    表記習慣がありません
  • 38:48 - 38:51
    ただ 辞書が作られた言語であれば全て
  • 38:51 - 38:53
    何らかの正書法を持っています
  • 38:53 - 38:57
    その場合 我々はその辞書の
    正書法を頼ることになります
  • 38:57 - 39:00
    時として
    失われるものがないと確信できれば
  • 39:00 - 39:04
    正書法を若干いじることはありますが
  • 39:04 - 39:06
    可能な限り避けるようにしています
  • 39:09 - 39:13
    我々は特定言語のために
    正書法を作ることはやっていません
  • 39:13 - 39:15
    未発達である場合が多く
  • 39:15 - 39:18
    発達していたとしても
    広く出版されていない場合が多いからです
  • 39:22 - 39:26
    例えば ニューギニア島で話されている
    多くの言語では
  • 39:26 - 39:29
    共通の正書法形式がないので
  • 39:29 - 39:31
    言語学者は
    何かを作って工夫するしかなく
  • 39:31 - 39:33
    それも初期段階として
    良い取り組みだと思います
  • 39:33 - 39:37
    我々はまた 辞書で入手可能であれば
    音声形式も収集します
  • 39:37 - 39:39
    これも別のアプローチであり
  • 39:39 - 39:42
    国際音声記号 (IPA) のようなものです
  • 39:43 - 39:44
    このような方法もある訳ですが
  • 39:44 - 39:46
    曖昧性が発生する可能性があるため
  • 39:46 - 39:48
    中間言語としては利用しません
  • 39:53 - 39:56
    (聴衆10)有難うございます
    変な質問かも知れませんが
  • 39:56 - 40:01
    ここに示されているのがあなた方が使用される
    中間言語の全てですか?
  • 40:01 - 40:02
    いいえ 違います
  • 40:02 - 40:04
    (聴衆10)そうですか
    有難うございます
  • 40:04 - 40:06
    いえ ご質問頂いて良かったです
  • 40:06 - 40:11
    これが translate.panlex.org の
    スクリーンショットです
  • 40:11 - 40:13
    翻訳をする場合
  • 40:13 - 40:15
    右側に翻訳候補のリストが出ます
  • 40:15 - 40:18
    点々のあるボタンをクリックすると
    こんなグラフが出ます
  • 40:18 - 40:22
    ここに中間言語が表示されます
  • 40:22 - 40:25
    スコアの上位20言語です
  • 40:25 - 40:27
    重要ではないので
    スコア法は詳しく説明しませんが
  • 40:27 - 40:30
    スコアによってランクされています
  • 40:30 - 40:34
    翻訳するためには
    実際は20よりはもっと多い数を使います
  • 40:34 - 40:36
    ここで20に止めているのは
    20以上あった場合ー
  • 40:36 - 40:38
    物理学のシミュレーションのようなもので
  • 40:38 - 40:40
    これらを動かすとくねくね動きます
  • 40:40 - 40:42
    20以上だとコンピュータがおかしくなります
  • 40:46 - 40:47
    これはデモなんです
  • 40:56 - 40:58
    (聴衆11)
    ウィキメディア財団のレイラです
  • 40:58 - 41:00
    プレゼンテーション中に
  • 41:00 - 41:03
    ウィキメディア財団について
    何度かコメントされていましたが
  • 41:03 - 41:06
    ウィキデータとのデータ送入や
  • 41:06 - 41:09
    コラボレーションをご希望であれば
  • 41:09 - 41:11
    ウィキメディア・ドイツに
  • 41:11 - 41:13
    相談された方が良いのでは?
  • 41:13 - 41:16
    ウィキデータは
    ウィキメディア・ドイツ内にあり
  • 41:16 - 41:18
    チームもそこにいて
  • 41:18 - 41:21
    ウィキデータに関わる
    ボランティアのコミュニティが
  • 41:22 - 41:28
    データ送入やパンレックスをウィキデータに
    近づける取り組みについて
  • 41:28 - 41:31
    話し合う最適の場所だと思うんです
  • 41:31 - 41:33
    どうも有難うございます
  • 41:33 - 41:38
    正直言って 細かい組織構造のことや
  • 41:38 - 41:40
    プロジェクトの関係について
    良く知らないのでー
  • 41:40 - 41:42
    笑い声が聞こえるので
    複雑なんでしょうね
  • 41:43 - 41:45
    基本的に
    ウィキデータの責任者であれば
  • 41:45 - 41:49
    誰でも良いので話をしたいです
  • 41:51 - 41:53
    [聞き取り不能] をさせてもらえば
  • 41:53 - 41:55
    ウィキデータの責任者の方とね
  • 41:57 - 41:59
    すなわちボランティアの皆さんと
    お話しがしたいです
  • 42:04 - 42:05
    他にご質問は?
  • 42:10 - 42:15
    追加でご質問がある方や
  • 42:15 - 42:17
    お話したことについて
    もっと詳しく聞きたい方は
  • 42:17 - 42:21
    話しかけて下さい
    私も興味がありますから
  • 42:21 - 42:24
    語彙関係について取り組まれていたり
  • 42:24 - 42:28
    絶滅の危機に瀕している少数言語や
  • 42:28 - 42:32
    サポートの少ない言語に関わっていたら
    お話ししましょう
  • 42:32 - 42:34
    ユニコードもやるので関心があります
  • 42:37 - 42:38
    有難うございました
  • 42:38 - 42:40
    登壇させて頂き感謝してます
  • 42:40 - 42:42
    皆さんにとり面白い話だったら光栄です
    (拍手)
Title:
cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:
English
Duration:
42:53

Japanese subtitles

Revisions