-
[基調講演]
-
[ベンジャミン・ヤン (パンレックス)]
-
地球上には今
-
約7.500種の言語があります
-
推測では そのうち7割が
21世紀中に消滅するとされています
-
ある言語が死滅するたびに
-
数百年 数千年と続いていた
-
繋がりが断ち切られます
-
文化 歴史 伝統
そして知識への繋がりが断絶します
-
言語学者 ケネス・ヘイルは
こう言いました
-
言語が死ぬたびに
-
ルーブルに原子爆弾が
落とされているようなものだと
-
そこで質問です
-
言語はなぜ死ぬのでしょうか
-
簡単な解答として思いつくのは
-
権威主義的な政府が
-
ある民族が自らの言語を
話すことを禁ずる場合や
-
学校で母国語を話す子供が
罰せられる場合
-
あるいは少数言語のラジオ局を
-
政府が強制閉鎖するような例です
-
過去には間違いなく起きてきたことで
-
今日でもある程度起きていることです
-
しかし本当の答えとしては
-
ほとんどの言語死滅は
-
もっと単純で
-
簡単に説明できるものなのです
-
ひとつの世代から次の世代へと
-
継承されないことにより
-
言語は消滅するのです
-
少数言語を話す人が
-
子供をもうけるたびに
-
算段をするんです
-
このように自問します
-
自分の言語を子供に継承すべきか
-
それとも主流言語だけを教えるべきかと
-
実際には その人の頭の中には
計りがあるんです
-
計りの一方にはー
-
今までの人生で母国語を
-
意思疎通や
伝統文化に触れるために使うたびに
-
左側に重石が置かれています
-
逆に 母国語が使用できず
-
主流言語を使わざるを得ないたびに
-
右側に重石が置かれています
-
母国が話せるという自信と誇りにより
-
左側に置かれている重石の方が
-
少し重くなっています
-
でも 徐々に右側に重石が溜まってきて
-
いずれ計りが右に傾きます
-
そうすると その人が
-
母国語を継承するかどうか
決断する時が訪れた際に
-
母国語が祝福すべきものではなく
重荷として感じられてしまうのです
-
次の質問は
これをどうやって反転させるかです
-
まず第一に 次の事実があります
-
どんな言語でも
-
使用可能な社会的範囲が
あるということです
-
今日 話されている
全ての母国語は
-
その家族同士で
使用することができます
-
コミュニティ内で使用可能な言語は
やや少なくなり
-
より広い地域で使用できるのは
もっと少ないでしょう
-
国際的な意思疎通に使えるとなると
-
一握りの言語になります
-
また これらの領域それぞれにおいても
-
母国語を教育やビジネス
-
またはテクノロジーに使えるか
という問題があります
-
ご説明していることを
-
分かりやすくするため
-
例え話をご紹介します
-
あなたが今まで夢に見ていた
-
インド旅行に行くとしましょう
-
乗り換えでイスタンブールに
8時間滞在するとします
-
トルコを訪問する予定はありませんでしたが
-
一時滞在することもあり
-
トルコ人の友人が
空港の近くの
-
美味しいレストランを
教えてくれたので
-
あなたは滞在中に
寄ってみることにしました
-
空港を出て
-
レストランに着き
-
メニューを受け取ると
-
それはトルコ語だけのものでした
-
この話の前提として
-
あなたはトルコ語は話せないとします
-
どうしますか?
-
最良のケースとしては
-
あなたの母国語ー
-
ドイツ語や英語を
話す人を見つけることです
-
でも その日は運が悪く
-
レストランにドイツ語も英語も
話せる人はいません
-
さあ どうします?
-
私だったらー
大多数の方もそうでしょうがー
-
テクノロジーに解を求めます
-
自動翻訳機か電子辞書を使って
-
一語ずつ検索して行けば
-
最終的に 美味しいトルコ料理が
注文できるでしょう
-
次のこんなシナリオを考えてみましょう
-
あなたは少数言語が母国語です
-
例えば低地ソルブ語
-
低地ソルブ語は ここドイツで
絶滅の危機に瀕している言語です
-
ここから130キロほど南東で
-
既に多くが年老いた
数千人が使用しています
-
この低地ソルブ語が母国です
-
レストランに着きました
-
当然ながら そのレストランに
-
あなたの母国語を話す人がいる確率は
ほとんどありません
-
またテクノロジーに
解を求めても良いですが
-
あなたの母国語には
-
テクノロジーによる
解は提供されていません
-
ドイツ語か英語を中間言語として
-
トルコ語に翻訳して
もらうしかないのです
-
結局は 美味しいトルコ料理が
食べられた訳ですが
-
これが自分の祖父だったとしたら
-
ドイツ語が話せないため
難しかっただろうと考えます
-
これ自体は小さなことですが
-
結果的に計りの右側に重石が置かれ
-
あなたは 多分
-
子供が生まれたら
または次の子が生まれた場合は
-
母国語を保つために
-
このような苦労は
させたくはないと考えるでしょう
-
もっと重要な局面で
-
同様のことが起きたとしたら
どうでしょう
-
例えば病院にいるときなどです
-
ここで 我々は手助けができます
-
我々とは
ここに今いる私たちのことです
-
手助けをするツールがあるんです
-
少数言語や
サポートの少ない言語を話す人々にも
-
テクノロジー・ツールが提供されれば
-
計りの左側を少しだけ
指で押してあげられるんです
-
その人は 外界と交流するために
少数言語に頼る必要があると
-
考えなくても良くなるのです
-
なぜなら その人の社会的な活動範囲が
-
わずかながら拡大するからです
-
もちろん 理想的な解決策は
-
世界の全ての言語で
自動翻訳が可能となることですが
-
残念ながら現実的ではありません
-
自動翻訳は巨大な
テキストのコーパスを必要としますが
-
絶滅に直面していたり
サポートの少ない言語の多くは
-
そのようなデータが存在しません
-
言語によっては
一般的に表記もされていないため
-
自動翻訳機を構築するために必要な
データ量を集めることは
-
現実的ではありません
-
でも 語彙的なデータは存在します
-
過去数百年にわたる
数多くの言語学者の尽力により
-
世界の多くの言語に関し
-
辞書や文法書が出版されています
-
でも残念ながら
-
その出版物の多くは
広く行き渡っておらず
-
少数言語の話し手にも
入手は困難です
-
これは意図的にそうなってる訳ではなく
-
多くの場合は
単に辞書の初版が少なく
-
存在するものは
-
大学の図書館の片隅で
カビを生やしているだけなのです
-
でも 私たちはそのデータを入手し
-
世界にアクセスさせることができるのです
-
ウィキメディア財団は
-
データを地球上の人類の大多数に
データを届けられる
-
最良の機関のひとつー
-
いや最良の機関だと言えます
-
だから頑張りましょう
-
我々がこの領域で
-
何をしてきたか少し説明するため
-
私の団体である
パンレックスをご紹介します
-
この問題解決のため
-
語彙データを収集しようとしている団体です
-
我々は12年前に
-
ワシントン大学で
研究プロジェクトとして始まりました
-
理念としてあったのは
-
推論的翻訳が
-
効果的な翻訳機となり得ることを
証明することでした
-
要するに語彙的な翻訳機です
-
これがパンレックスのデータの実例です
-
トルコ語で「家」を意味する「エヴ」を
-
さきほど述べた低地ソルブ語に
翻訳する方法を示しています
-
トルコ語から低地ソルブ語の辞書を
-
みつけるのは難しいでしょうが
-
いろいろな中間言語を通すことにより
-
効果的な翻訳が可能です
-
研究プロジェクトの結果を受け
-
パンレックス創立者の
ジョナサン・プール博士は
-
「実際にやろうじゃないか」と
-
非営利団体を設立し
-
語彙データを大量に集め
提供することにしたのです
-
これが我々の過去12年の営みです
-
その間 数千種類の辞書を集め
-
語彙データを抽出し
-
推論的語彙翻訳を可能にする
データベースを構築しました
-
翻訳対象言語は
-
現時点で世界の7,500言語のうち
-
約5,500言語をカバーしています
-
我々は常に対象言語を広げ
-
各言語内でもデータ量を拡大する
努力を続けています
-
そこで 次の質問は
-
どのような協働ができるかです
-
パンレックスでは
-
最近ウィキデータが開発している語彙データに
-
大いに関心を持っています
-
我々と同じような領域で
-
異なる側面から研究をしている
団体がいるというのは素晴らしいことです
-
ウィキデータの活動結果に
-
とても期待しています
-
ウィキデータと協働することにも
期待しています
-
我々が過去12年間で培ってきた
-
語彙データの収集だけでなく
-
データベースのデザインも含めた
特別なスキルが
-
ウィキデータにとっても
有益なものになるでしょう
-
その一方で
-
データをクラウドソーシングする
-
ウィキデータの能力にも
特に期待しています
-
現在パンレックスのデータソースはすべて
-
印刷された語彙データや
その他の語彙ソースであり
-
クラウドソーシングはやってません
-
それを可能にする
インフラがないのです
-
そしてウィキメディア基金はもちろん
-
クラウドソーシングの
世界的なエキスパートです
-
お互いのスキルを
具体的にどのように活用できるか
-
非常に楽しみにしています
-
これらの取り組みに関して
-
全体として重要なことは
-
作業をしていると
細部にこだわってしまうということです
-
我々の作業は
文法書を見たり
-
辞書や古語辞典を調べたり
-
時には最近出版された辞書を使い
-
文章中の言葉を確認していると
-
その言語に密着している気になります
-
しかし たまに一歩引くことが必要です
-
自分たちがやっていることが
-
つまらないことのような
気がすることがあっても
-
非常に大切な取り組みなんです
-
これは私の意見になりますが
-
絶滅しそうな言語を支援し
-
地球上の言語の多様性が
-
今世紀末からその先まで保たれるための
最良の方法だと信じています
-
今日の我々の活動により
-
言語が保存され継承され
-
絶滅の目を見ないことに
-
つながる可能性は十分あります
-
だから 覚えていてください
-
あなたが コンピュータの前に座って
-
個別のエントリーを編集したり
-
少数言語のすべての名詞を
データ入力しているとき
-
自分がやっている
その小さな作業が
-
その言語が今世紀末からその先まで
存続できるための
-
責任の一部を担っている
可能性があるということです
-
有難うございました
-
ご質問を受けたいと思います
-
(拍手)
-
(聴衆1)ありがとう
-
お話し有難うございました
-
辞書について質問があります
-
印刷された辞書で作業をすると
おっしゃいましたね
-
はい
-
その辞書から
何を抽出されてますか
-
また著作権などの問題に
対処する必要はありますか
-
これが最初の質問になるだろうと
予想していましたよ(笑)
-
まず パンレックスでは
-
法的なアドバイスを得た結果
-
辞書の編纂 編集は著作権で
守られ得るものの
-
その中の翻訳自体は
著作権の対象外であると考えています
-
好例として 米国法においては
電話帳は著作権対象とされていますが
-
Xという人物の電話番号がDという
事実は著作権対象となりません
-
法律の専門家によれば
-
この問題には対処できるわけです
-
仮に この主張が法的に
不十分であったとしても
-
重要な点は
-
ほとんどの語彙データに関し
-
著作権保護期限が過ぎているという点です
-
ですから多くのデータが
著作権の問題なく利用できるのです
-
また 最近出版された辞書で作業をする場合は
-
スキャンして
光学文字認識するのではなく
-
辞書の作成者に
Eメールしちゃいます
-
実際には 大抵の言語学者は
-
とても喜んで自分のデータを公開してくれます
-
「もちろんです 全部データベースに加えて
アクセス可能にしてください」という感じです
-
このように 法的見解に基づけば大丈夫ですが
-
そこに不安がある場合でも
-
データを広くアクセス可能とすることは
さほど難しくはありません
-
(聴衆2)有難うございます
こんにちは
-
低地ソルブ語を話す人が
-
どのようにデータにアクセスしているか
もう少し説明して頂けますか
-
情報が具体的に
どのように届けられるのか
-
そして その人たちに
-
データを利用してみるよう
どうやって説得するのかー
-
とても良い質問です
-
私もそのことについて
良く考えています
-
データアクセスというものは
-
実際には 複数のステップがあるんです
-
一つ目は データ保存ですー
データが消滅しないようにします
-
二つ目は データの相互運用性を確保して
-
誰でも活用できるようにすることです
-
三つ目は データにアクセスが
可能であることです
-
パンレックスの場合では
-
APIを提供していますが
-
当然ながらエンドユーザーには
活用してもえません
-
そこでインターフェースも
開発しました
-
例えば translate.panlex.org に行けば
-
我々のデータバース上で
翻訳ができます
-
APIを試してみたければ
dev.panlex.org に行って
-
APIが試せます
api.panlex.org からも行けます
-
でも もう一つのステップが必要です
-
素晴らしく便利なツールを使って
-
データを完璧にアクセス可能にしても
-
そのツールを宣伝しないと
-
人々に実際に使ってもらえません
-
これは余り話題にのぼりませんが
-
私も良い解答を持っていません
-
例えば 私もつい数年前までは
ウィキデータのことを知りませんでした
-
まさしく私が関心を持っている
ものにも関わらずです
-
どうやって宣伝すれば良いのでしょうか?
-
今 答えがあるとは思っていません
-
私自身も良い解答をもっていません
-
もちろん そのためには
-
最初のステップを完了する必要があります
-
(聴衆3)機械翻訳のためには
-
翻訳メモリーが必要ではないですか?
-
我々はウィキデータに個別の言葉や
-
短いフレーズを
-
通常のウィキデータ項目や
ウィキデータ語彙素として入力していますが
-
ちゃんとした翻訳に
十分なものかどうかわかりません
-
機械翻訳には完全な文が必要だと思うんです
-
(ベンジャミン)その通りですね
-
(聴衆3)データ構造は
どうやって入手するんですか?
-
現時点でウィキデータが
-
翻訳メモリーの問題を
-
上手く処理できるかどうかわかりません
-
translatewiki.net を使って
-
そのギャップを埋めることを
-
検討するべきなのでしょうか?
-
ご質問の主旨は良く分かります
-
さきほど少し触れましたが
再度説明したいと思います
-
それがまさしくパンレックスが
語彙データを扱っている理由です
-
そしてまた 私が機械翻訳エンジンや
機械翻訳よりもー
-
というか機械翻訳に加えて
-
語彙データに興味がある
理由でもあります
-
ご指摘の通り 機械翻訳は特別な種類の
データを必要としますが
-
そのデータは世界の言語の大多数で
入手ができません
-
世界の言語の大多数で
入手不可能なんです
-
でもそれは諦める理由にはなりません
-
どうして諦めますか?
-
トルコレストランのメニューを
翻訳するのであれば
-
語彙翻訳は最適なツールでしょう
-
語彙翻訳を使って 完璧な段落から段落への
翻訳ができるとは言ってません
-
語彙翻訳という場合
言葉から言葉への翻訳を指してますが
-
それでも とても便利な場合があります
-
考えてみればおかしいことですが
-
本当に優れた機械翻訳には
-
つい最近まで誰も
アクセスがなかったわけですが
-
それでも辞書で何とかやって来れたんです
-
辞書はものすごく便利なリソースなんです
-
そのデータがあるんだから
-
世の中と その言語を話す人々に
提供するべきです
-
(聴衆4)こんにちは
どんなメカニズムがあるんですが
-
コミュニティー自身がー
ここにいます
-
ああ そこですか
-
(聴衆4)コミュニティ自身が
パンレックスとデータを共有したくない場合?
-
良い質問です
-
その場合の対処法は
-
もし辞書が発行され
公に入手可能であれば
-
良い指標だと考えています
-
本屋や大学の図書館で購入できたり
公の図書館で誰でもアクセスできる場合
-
共有しても良いという意思が
示されたと考えられます
-
マイクに向かって
話していただけますか?
-
繰り返して頂けますか?
-
(聴衆4)言語学者は常にコミュニティの
許可を得ているとは限りません
-
コミュニティの承諾を
得ないで書物を発行することもあります
-
その通りだと思います
-
そういうことはあるでしょうが
-
ごく限られた場合であり
-
もっぱら北米に限定されたことと思います
-
南米の言語でも時々そういうことは起きますが
-
考慮する必要があることです
-
例えば パンレックスにあるデータについて
-
世間一般にアクセスさせてはならないと
言われた場合
-
我々はそのデータを削除します
-
それは著作権を尊重するという
意味ではありませんが
-
伝統的な
コミュニティーの意見は聞きます
-
それは大きな違いです
-
(聴衆4)そのことを指してました
-
とても興味深い点に繋がるんです
-
時として 誰がその言語を話すかと
いうことが大変重要になります
-
私の経験で
アメリカの南西部を訪れて
-
プエブロ語を話す原住民のことを調べている
-
グループと協働したことがあります
-
そのエリアで話される
プエブロ言語は
-
分類の仕方にもよりますが
-
6種類くらいあります
-
でも その言語は
18種類のプエブロ族に分かれていて
-
それぞれが
独自の族政府を持ち
-
それぞれの政府が
自分たちの言語を
-
外界にアクセスさせるべきか否か
独自の意見を持っています
-
ズリ・プエブロの場合を見てみましょう
-
ズリ語を話す
唯一のプエブロですが
-
彼らは自分たちの言語が
拡散することは大歓迎で
-
道路標識とか あちこちに表示しています
-
でも他の言語では
-
あるグループは
-
「我々の言語は よそ者に
アクセスさせたくない」と言い
-
同じ言語を話す
隣のプエブロは
-
「このテクノロジー・ツールを使って
-
外界の者に
我々の言語にアクセスして欲しい
-
我々の言語に永続して欲しい」と言うんです
-
難しい倫理的問題を提示します
-
もし画一的に
-
「分かりました このグループの希望だから
断絶します」としたら
-
もう一方のグループの
積極的に断絶を回避したいという
-
意思に反していることになります
-
この問題には簡単な答えはありません
-
パンレックスでは
-
私が知る限りでは
-
まだ このような問題に遭遇していませんが
-
でも それはもしかするとー
-
彼の質問に戻りますがー
-
もっと宣伝すれば良いのかも知れません
-
でも 一般的には
-
知る限り
この問題は発生していません
-
我々の対応策としては
-
あるコミュニティがデータを
提供したくないと言えば
-
我々はデータベースから削除します
-
ウィキデータやウィキペディアでも
同様なことに遭遇しています
-
- あるんですか?
- (聴衆4)コメント等で問題に…
-
特に写真などのコメントで
問題になることは考えられますね
-
(聴衆4)その通り
-
(聴衆5)クラウドソーシングの質問です
-
コミュニティに対し
-
データセットへの注釈や
データの追加を求めるとき
-
ちょっと気が引けるのは
-
編集者としては
足りないものしか見えてないということです
-
でもアイディアがあって
時間をかけて
-
優先事項のリストを持つことは
-
その面では
モチベーションに繋がると思います
-
私が興味があったのは
-
あなた方が データのギャップを
知るようなシステムを持ってるかどうかです
-
言語学的なエビデンスに基づき
-
これらも注釈をつければ
影響力の大きいドライバーになるだろうとか
-
例えば「家」の語彙素を持つことは
-
データ類の語彙素よりも
インパクトが大きいことは想像できます
-
そのデータがあれば
-
コミュニティの努力を推進するために
使えるかどうか興味があります
-
良い質問です
-
ウィキデータが
沢山持っているものにー
-
失礼 パンレックスが沢山持ってるのは
スワデシュ・リストです
-
面白いことに 我々は世界最大の
スワデシュ・リストを持ってるようです
-
スワデシュ・リストを
ご存知でない場合
-
規則化された語彙のリストで
-
言語分析に使用されます
-
とても基本的なリストで構成されています
-
2種類のスワデシュ・リストががありますが
-
100または213項目からなり
-
「家」「目」「肌」のような
-
どんな言語にもあるような
基本的な言葉が含まれています
-
そのようなデータを提供するには
とても良い出発点だと思います
-
さきほど申し上げた通り
-
我々はまだ
クラウドソーシングをしていませんが
-
開始予定であることを
とても喜んでいます
-
今回のコンファレンスで皆さんに
-
クラウドソーシングの活用法や
その裏のロジスティクスについて
-
お伝えできることが嬉しいです
-
すると こういう質問を受ける訳です
-
だから 私からの答えとしては
-
優先事項のリストがあるということです
-
間違いなく言えるのは
-
探している言語の優先リストがあると
いうことです
-
どう取り組んでいるかと言うと
-
テクノロジー・ソリューションの
恩恵を受けてない言語を探します
-
それは多くの場合 少数言語で
-
我々はそういったものを優先します
-
我々が新たに取得するデータは
一般的には語彙項目であり
-
実質的には辞書を丸々
吸収するということです
-
我々は辞書が選択する
-
語彙項目に依存しています
-
全ての言語で「家」という言葉を
探す訳ではありません
-
でも データのクラウドソーシングの場合
そのようなアプローチになります
-
だから これは研究と成長の機会なんです
-
(聴衆6)ヴィクターです
本当にすごいですね
-
スライドがありますが
-
ウィキデータとパンレックスの間の
-
データと情報の流れに関する
-
現在の技術的な状況について
説明して頂けますか
-
既に実行に移されているのか
-
そしてパンレックスとウィキデータの間の
-
情報の相互交通
またはフィードバック・ループ情報に
-
どう対処しているのでしょうか
-
現時点ではウィキデータと
フォーマルな接続はしていません
-
先ほど述べた通り 今回ここで皆さんに
是非紹介したいことなんです
-
ウィクショナリーとは既に
交流が始まっていますが
-
正直言うと ウィキデータの方が
我々が求めていることと
-
相性は良いはずです
-
語彙関係そのもののデータを持っているので
-
我々はデータ分析や抽出に
余分な時間を費やす必要がありません
-
そこで答えは まだ接続していないが
是非そうしたいということです
-
まだ接続していないなら
何が障害なんですか?
-
ウィキデータはすでに
幾つかの言語をサポートしていますが
-
translate.panlex.orgを参照すると
-
どうやら あなた方は
多くの言語変種もサポートしており
-
ウィキデータより範囲は相当広いですね
-
翻訳や語彙翻訳ありきの
-
アプリケーションに対し
-
ナレッジ構造をマッピングする試みとの
-
ギャップについて
どうお考えですか?
-
ナレッジのマッピングは
確かにとても興味深いです
-
ウィキデータが語彙データを整理する方法
-
そして我々の方法について
興味深いディスカッションがありました
-
マッピング戦略を要する
微妙なデータの違いがありました
-
そのいくつかは
自動化できませんが
-
それを可能にするテクニックが
開発できるかも知れません
-
言語変種のことを話されましたが
-
我々は言語変種については
非常に細かく分類しがちです
-
例えば あるデータソースが
-
パプアニューギニアの言語で
-
この方言が川の左側で話されると言い
-
別のソースが
その方言は川の右側で話されると言えば
-
我々は それぞれ別の言語とし扱います
-
そのようにして できるだけ多くの
データを保存しようとしているのです
-
それをウィキデータの方法に
マッピングできるようにするにはー
-
私が是非意見交換したいのは
-
ウィキデータで言語が
-
どのように指定されるかという点です
-
先ほどの通り 我々は細密分類の
戦略を取ってますから
-
我々はもっぱらエスノローグが提供する
-
ISO 6393 コードに準拠していますが
-
各コード内で
複数の言語変種を容認しています
-
例えば 文字変種や地域的な方言
社会方言に対応するためです
-
これも 今後の議論や協働のトピックです
-
(聴衆7)光学文字認識 (OCR) の
パイプラインについて教えてください
-
私たちもマヤ語で OCR に挑戦しており
-
なかなか結果が出ないもんですから
-
全く認識してもらえないんです
-
そうでしょうね(笑)
-
(聴衆7)パイプラインが開示できれば
-
もう一つの質問は
ISOコードの重複についてです
-
ソースによって
これとこれは違う言語と言ったり
-
別のソースでは
異なる扱いだったりして
-
先ほどおっしゃった通り
重複することが多いので
-
どう対応されていますか?
-
素晴らしい質問ですね
-
正式なOCRパイプラインはありませんが
-
ソースごとに取り組んでいます
-
なぜかと言うと
-
OCRを必要としないソースも多い一方で
-
OCRが入手可能な言語もあるので
-
作業が楽な後者に専念しています
-
当然ながら 着手予定のソースで
-
詳細な研究を進める場合は
-
OCRパイプラインを
充実させる必要があります
-
でも 別の面もあって
おっしゃった通り
-
OCRエンジンを設計した人たちは
-
どれくらいストレステストできるか
認識していないんだと思います
-
だって何が楽しいかと言えばー
-
ロシア語対チベット語辞書のOCRとか
-
相当難しいですよね
-
結局諦めて
タイプ入力してくれる人を雇いました
-
その方法でもできた訳です
-
実際に その女性はすごくて
-
チベット語を読むことを学んだロシア人で
-
タイプ入力してくれ 大変助かりました
-
ラテン系の文字を扱っている場合は
-
充実したOCRソリューションは開発可能で
-
このような複数言語に対応でき
-
16世紀のマヤ語みたいなものを扱っていれば
ランダムな4桁コードも対応できます
-
でも言語によっては
-
OCRが永久に追いつかなかったり
-
作業量がとてつもなく
多すぎるものがあります
-
今この手法を活用しているのが
-
パンレックスの別のプロジェクトで
-
バリの全ての伝統文学を
読み込んでおり
-
バリ語の手書き文字では
-
OCRは無理であることが分かったため
-
大勢のバリ人にタイプしてもらってます
-
バリで注目の文化プロジェクトとして
-
ニュースなどでも取り上げられました
-
OCRに依存する必要はないものの
-
世の中には色々なOCRがあるので
-
優れたソリューションがあるのは
もちろん良いことです
-
超多言語OCRの専門家がいたら
-
是非声をかけてくださいね
-
(聴衆8)プレゼンテーション
有難うございました
-
パンレックスとウィキデータの
-
統合についてお話しされましたが
-
詳細には触れられませんでしたので
-
あなたのデータライセンスを調べたら
CC0でした
-
そうです
-
(聴衆8)いいですね
二つの方法が可能と思います
-
データをインポートするか
-
または 完全なデータベースがある
フリーベースを活用したような方法です
-
その時はインポートしてリンクを作成しました
-
リンクはフリーベースの
データベースへの外部識別子を使いました
-
今回も同じようなことを考えてますか?
-
それとも単純に
ウィキデータにリンクできる
-
独立したデータベースを
作ろうと考えていますか?
-
とても良い質問で
-
私が今まで考えて来たことの
一歩先を行っていると思います
-
なぜかと言えば
さきほど申し上げた通り
-
両方のデータベースが
一緒に働けるようにすることは
-
それだけで大きなステップだからです
-
まず可能な最初のステップは
-
文字通り お互いのスキルを
混合することです
-
我々は 個別の語彙素のプロパティ分類に関し
-
多くの経験を持っていますので
-
喜んでシェアしたいと思ってますが
-
データベースそのものを
リンクできれば素晴らしいです
-
是非できればと考えています
-
ウィキデータからパンレックスへの流れの方が
-
少し楽な気がしますが
-
方法がイメージできるから
思い込んでるだけかも知れません
-
ウィキデータがライセンスなどに関し
問題なければ
-
あるいは両者間で工夫すれば
-
とても良いアイディアだと思います
-
データそのものをリンクする方法さえ
考えつけばいいんです
-
まず思うのは ウィキデータ上での編集が
-
瞬時にパンレックスのデータベース上にも
反映されればいいなということです
-
毎回データを送り直す必要がなければ
-
ウィキデータが実質的に
-
パンレックスのクラウドソースの
インターフェースになるわけで
-
最高だと思います
-
そうすればパンレックスを
即時翻訳にも使え
-
ウィキデータ全体の語彙項目を使って
翻訳ができる訳で
-
理想的ですね
-
(聴衆9)これは 推論で穴を埋めるという
-
セマンティック・ウェブの監査工程
のようなものですね
-
このような翻訳について
もっと考えてみた場合
-
語義や文法のミスマッチについて
-
どのように対処するんですか?
-
例えば ドイツ語を翻訳する場合
-
幾つかの言葉をまとめれば
-
それなりの結果が得られます
-
その一方で
例えば 言語によっては
-
ドイツ語ほど
色に関して詳細なシステムがないと
-
何かで読んだことがあります
-
すべての言語が色に関し
-
異なるシステムを使っている
それとも同じとおっしゃいましたか?
-
(聴衆9)もしかすると
言語の進化の話だったも知れません
-
最初は白か黒で始まり そしてー
-
色のヒエラルキーですね
-
実際に色のヒエラルキーは
-
この仕組みを説明するのに適しています
-
一つの中間言語がある場合ー
-
機械翻訳に関する論文を読むと興味深いです
-
仮想の中間言語について良く話していますが
-
「中間言語がある」と言ってる場合
-
読んでみると大抵「英語だ」と言ってます
-
この形態の語彙翻訳がしていることは
-
多くの異なる中間言語を介することにより
-
色々な語義の曖昧さに
対応することができるのです
-
ある言葉の語義領域がそれなりに類似した
-
言語を介在させている限り
-
中間言語を通すことにより発生する
-
語義の曖昧さを回避することができますから
-
色のヒエラルキーの例をとれば
-
緑と青を表す言葉が一つしかない言語を
-
中間言語では 青と翻訳し
-
その色について異なる曖昧さを持つ
別の言語にさらに翻訳した場合
-
語義的な曖昧さが発生してしまいます
-
でも やはり緑と青について
一つの言葉しか持たない
-
他の言語をたくさん介在させることにより
-
その特定の語義を実際に
-
最終言語に伝えることができるのです
-
文法的な面については
-
パンレックスでは今まで
-
語彙素すなわち語彙形式を収集して来ました
-
要するに
辞書の見出し語であれば
-
全て収集するということです
-
だから現時点では
-
文法的な変種形式は
積極的には収集していません
-
例えば [聞き取り不能] データや
-
過去形 現在形などです
-
でも今後のこととして検討はしています
-
忘れてはならない点は
-
我々が重視しているのは
-
サポートの少ない言語や
絶滅しそうな少数言語ですから
-
完璧を目指すよりは
-
せめて何かを提供することを
優先しているということです
-
私が好きな言葉に
-
「完璧さを求める余り良い結果を逸するな」
というものがあり
-
それを肝に命じています
-
でも 文法形式を扱ったり
-
異なる文法形式間で
-
翻訳できるようになることには
とても興味があります
-
今まで ある程度は研究はしましたが
-
まだ 本格的に着手はしていません
-
世界の約7,500の言語について
-
表記された辞書を
使っておられるのでしょうが
-
その全ての言語が
標準的な表記法を持っているのでしょうか
-
良い質問ですね
-
これらの言語の多くが
-
皆さんご存じの通り
表記習慣がありません
-
ただ 辞書が作られた言語であれば全て
-
何らかの正書法を持っています
-
その場合 我々はその辞書の
正書法を頼ることになります
-
時として
失われるものがないと確信できれば
-
正書法を若干いじることはありますが
-
可能な限り避けるようにしています
-
我々は特定言語のために
正書法を作ることはやっていません
-
未発達である場合が多く
-
発達していたとしても
広く出版されていない場合が多いからです
-
例えば ニューギニア島で話されている
多くの言語では
-
共通の正書法形式がないので
-
言語学者は
何かを作って工夫するしかなく
-
それも初期段階として
良い取り組みだと思います
-
我々はまた 辞書で入手可能であれば
音声形式も収集します
-
これも別のアプローチであり
-
国際音声記号 (IPA) のようなものです
-
このような方法もある訳ですが
-
曖昧性が発生する可能性があるため
-
中間言語としては利用しません
-
(聴衆10)有難うございます
変な質問かも知れませんが
-
ここに示されているのがあなた方が使用される
中間言語の全てですか?
-
いいえ 違います
-
(聴衆10)そうですか
有難うございます
-
いえ ご質問頂いて良かったです
-
これが translate.panlex.org の
スクリーンショットです
-
翻訳をする場合
-
右側に翻訳候補のリストが出ます
-
点々のあるボタンをクリックすると
こんなグラフが出ます
-
ここに中間言語が表示されます
-
スコアの上位20言語です
-
重要ではないので
スコア法は詳しく説明しませんが
-
スコアによってランクされています
-
翻訳するためには
実際は20よりはもっと多い数を使います
-
ここで20に止めているのは
20以上あった場合ー
-
物理学のシミュレーションのようなもので
-
これらを動かすとくねくね動きます
-
20以上だとコンピュータがおかしくなります
-
これはデモなんです
-
(聴衆11)
ウィキメディア財団のレイラです
-
プレゼンテーション中に
-
ウィキメディア財団について
何度かコメントされていましたが
-
ウィキデータとのデータ送入や
-
コラボレーションをご希望であれば
-
ウィキメディア・ドイツに
-
相談された方が良いのでは?
-
ウィキデータは
ウィキメディア・ドイツ内にあり
-
チームもそこにいて
-
ウィキデータに関わる
ボランティアのコミュニティが
-
データ送入やパンレックスをウィキデータに
近づける取り組みについて
-
話し合う最適の場所だと思うんです
-
どうも有難うございます
-
正直言って 細かい組織構造のことや
-
プロジェクトの関係について
良く知らないのでー
-
笑い声が聞こえるので
複雑なんでしょうね
-
基本的に
ウィキデータの責任者であれば
-
誰でも良いので話をしたいです
-
[聞き取り不能] をさせてもらえば
-
ウィキデータの責任者の方とね
-
すなわちボランティアの皆さんと
お話しがしたいです
-
他にご質問は?
-
追加でご質問がある方や
-
お話したことについて
もっと詳しく聞きたい方は
-
話しかけて下さい
私も興味がありますから
-
語彙関係について取り組まれていたり
-
絶滅の危機に瀕している少数言語や
-
サポートの少ない言語に関わっていたら
お話ししましょう
-
ユニコードもやるので関心があります
-
有難うございました
-
登壇させて頂き感謝してます
-
皆さんにとり面白い話だったら光栄です
(拍手)