< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

  • 0:00 - 0:02
    [ウィキデータと言語]
  • 0:02 - 0:06
    [リディア・ピンチャー]
    [ウィキデータと言語]
  • 0:06 - 0:07
    ありがとうございます
  • 0:07 - 0:11
    この会議で大きなテーマの1つは
    言語です
  • 0:14 - 0:16
    これからお伝えするのは
  • 0:16 - 0:18
    言語に関する現状と
  • 0:18 - 0:22
    将来の展望についての概要です
  • 0:29 - 0:30
    ウィキデータの使命は
  • 0:30 - 0:34
    もっと多くの人が豊富な知識を
    利用できるようにすることです
  • 0:34 - 0:37
    言語はそれを実現するのに
    極めて重要です
  • 0:38 - 0:43
    特に 私たちの生活はますます
    テクノロジーに依存しているため
  • 0:44 - 0:49
    今日の基調講演で
    講演者が話していたように
  • 0:50 - 0:52
    ある言語を話せないことにより
  • 0:52 - 0:55
    テクノロジーが
    人を置き去りにする場合があります
  • 0:55 - 0:57
    それは良いとは言えません
  • 0:59 - 1:02
    何とかしたいと思っています
  • 1:03 - 1:06
    改善のためには
    少なくとも 次の2つが必要です
  • 1:06 - 1:11
    1つは 皆さんのの言語で
    コンテンツを提供することです
  • 1:11 - 1:14
    2つ目は アプリケーションなど
    何においても
  • 1:14 - 1:19
    皆さんの言語で
    やりとりすることです
  • 1:20 - 1:25
    ウィキデータは
    この2つの点に役立ちます
  • 1:25 - 1:28
    まず 皆さんの言語での
    コンテンツですが
  • 1:28 - 1:31
    これは基本的に
    項目とプロパティにある内容で
  • 1:31 - 1:33
    私たちが世界を表す方法です
  • 1:33 - 1:35
    必要なものは
    これだけではないですが
  • 1:35 - 1:39
    これにより
    改善が進むはずです
  • 1:40 - 1:42
    もう1つは
    皆さんの言語によるやりとりです
  • 1:42 - 1:46
    ここが語彙素の出番です
  • 1:46 - 1:49
    携帯端末の
    音声アシスト機能を利用する場合や
  • 1:49 - 1:55
    デバイスに文章を翻訳させたい場合
    などに活躍します
  • 1:56 - 1:59
    では 皆さんの言語でのコンテンツを
    見ていきましょう
  • 1:59 - 2:03
    これは items(項目)
    properties(プロパティ)の内容です
  • 2:05 - 2:10
    コンテンツには
    項目とプロパティにあるラベルが重要です
  • 2:10 - 2:15
    話題のエンティティが
    何と呼ばれるか知る必要があります
  • 2:16 - 2:20
    「Q5」が話題である場合
  • 2:20 - 2:22
    それは英語話者にとっては
    「human」であり
  • 2:22 - 2:25
    ドイツ語話者とっては
    「mensch」である
  • 2:25 - 2:26
    というようなものです
  • 2:26 - 2:30
    項目とプロパティに付いた
    こうしたラベルは
  • 2:30 - 2:34
    人間と機械 そして人間と人間の
  • 2:34 - 2:35
    ギャップを埋めてくれます
  • 2:35 - 2:40
    それにより 既存の知識が 皆にとって
    さらに利用しやすくなっています
  • 2:43 - 2:46
    これには期待が持てますね
    [範囲の状況は?]
  • 2:46 - 2:48
    実際の状況はどうでしょうか
  • 2:48 - 2:50
    このようになっています
  • 2:51 - 2:52
    ここで分かることは
  • 2:52 - 2:56
    ウィキデータにある
    項目の大半には
  • 2:56 - 3:01
    2つの言語で
    ラベルがあるということです
  • 3:02 - 3:04
    それに次いで
    1つ、3つの言語
  • 3:04 - 3:06
    その後は悲しい状態です
  • 3:07 - 3:09
    (静かな笑い)
  • 3:10 - 3:13
    これを改善しましょう
  • 3:14 - 3:15
    でも一方では
  • 3:15 - 3:17
    もっと悪い状況を想像していました
  • 3:17 - 3:20
    平均は1言語だと思っていましたから
  • 3:20 - 3:23
    2言語だと分かって満足です(笑)
  • 3:25 - 3:26
    では次
  • 3:27 - 3:34
    興味深いのは 項目とプロパティにある
    ラベルの数だけでなく
  • 3:34 - 3:37
    どの言語か知ることも
    興味深いものです
  • 3:38 - 3:41
    ここに示されているグラフは
  • 3:43 - 3:47
    Items(項目)にラベルがある言語です
  • 3:47 - 3:51
    大きく占めているのは
    Otherです
  • 3:51 - 3:54
    グラフが読めるよう
  • 3:55 - 3:59
    上位100の言語を抽出したので
    その他がOtherになっています
  • 4:00 - 4:02
    英語、オランダ語
  • 4:03 - 4:04
    フランス語
  • 4:06 - 4:09
    そして特に アストゥリアス語
  • 4:10 - 4:12
    - (聴衆1)やった!
    - 嬉しいですね!
  • 4:14 - 4:17
    不均衡になっていることが
    ここで分かりです
  • 4:17 - 4:20
    英語が多くの比率を占めています
  • 4:21 - 4:24
    同様にProperties(プロパティ)
    グラフを見ると
  • 4:24 - 4:26
    こちらのほうが
    均衡が取れています
  • 4:27 - 4:33
    これはプロパティがはるかに
    少ないことにもよるのでしょう
  • 4:33 - 4:37
    ですから比較的小さなコミュニティーでも
    引けをとりません
  • 4:37 - 4:39
    皆さんの言語に
    ローカライズすることは
  • 4:39 - 4:41
    ウィキデータの
    重要な部分でもありますから
  • 4:41 - 4:42
    これは良いことです
  • 4:46 - 4:49
    ここで強調したいことは
    アストゥリアス語で
  • 4:50 - 4:52
    小さなコミュニティーでも
  • 4:52 - 4:57
    熱意と仕事で
    大きな変化をもたらせるということです
  • 4:57 - 4:58
    素晴らしいことです
  • 5:02 - 5:03
    皆さんに質問です
  • 5:04 - 5:07
    ウィキデータで外部識別子を除く
    すべてのプロパティのうち
  • 5:08 - 5:10
    どれに多くのラベルが
    つまり多くの言語があるでしょうか
  • 5:11 - 5:14
    (聴衆)[聞き取り不能]
  • 5:14 - 5:17
    instance of
    という声があがりましたね
  • 5:18 - 5:19
    違います
  • 5:20 - 5:22
    正解はimageです(笑)
  • 5:23 - 5:29
    あなたが instance of
    まだラベルがない言語を話すなら
  • 5:29 - 5:30
    追加してください
  • 5:32 - 5:36
    現在 ラベルの数は148です
  • 5:38 - 5:41
    別のスライドです
  • 5:43 - 5:44
    このグラフは
  • 5:44 - 5:49
    どれだけのコンテンツが
    ある言語で利用できるようになっているか
  • 5:49 - 5:52
    またどれだけそのコンテンツが
    利用されたかを示しています
  • 5:52 - 5:55
    これは曲線ですよね
  • 5:55 - 6:01
    大半のコンテンツに
    英語のラベルがあり 英語で利用でき
  • 6:02 - 6:04
    たくさん利用されています
  • 6:04 - 6:06
    そして値は下がっていきます
  • 6:06 - 6:09
    ですが 外れ値もあり
  • 6:09 - 6:15
    必然的に予想されるよりも
    たくさんのコンテンツがあります
  • 6:17 - 6:20
    これはとても良いことです
  • 6:21 - 6:25
    課題はそれほど利用されていないことです
  • 6:26 - 6:29
    アストゥリアス語やオランダ語は
    もっと利用度が高いはずです
  • 6:29 - 6:32
    コミュニティーに協力することにより
  • 6:33 - 6:38
    収集データの利用度が向上するのは
    良いことだと思います
  • 6:43 - 6:47
    こちらと先ほどの分析は
    良い結果を示しています
  • 6:47 - 6:51
    ですが 利用度が高い項目に
  • 6:51 - 6:55
    より多くのラベルがある
    傾向があります
  • 6:55 - 6:58
    または多くのラベルがあると
    利用度が高いのでしょうか
  • 7:03 - 7:04
    そこで疑問は
  • 7:05 - 7:07
    私たちは強力な言語のみを
    サポートしているのか
  • 7:08 - 7:11
    または あらゆる言語を
    サポートしているのかです
  • 7:13 - 7:17
    こちらは言語の分類です
  • 7:18 - 7:22
    同じ分類の言語には
    同じラベルがある傾向があります
  • 7:26 - 7:28
    クラスタする傾向が見られます
  • 7:29 - 7:32
    こちらは同様のクラスタ分析ですが
  • 7:33 - 7:39
    言語の健在度、利用度、
    危険度に基づいて
  • 7:40 - 7:43
    色分けされています
  • 7:43 - 7:45
    良い結果として
  • 7:45 - 7:50
    安全言語と危機言語とで
  • 7:50 - 7:54
    異なるクラスタを
    形成していないことです
  • 7:54 - 7:59
    すべて混じり合っています
  • 8:00 - 8:05
    この逆の結果よりも
    ずっと良いことですよね
  • 8:05 - 8:09
    安全言語
    強力な言語の間だけで
  • 8:10 - 8:14
    助け合っている
    ということではありませんから
  • 8:14 - 8:17
    これはとても良いことです
  • 8:17 - 8:20
    これを見た時
    良いことだと思いました
  • 8:23 - 8:28
    これも同様の分析データで
  • 8:30 - 8:36
    言語状況と
    言語が所有するラベル数です
  • 8:39 - 8:43
    安全言語(分類1)は
    明らかに勝っており
  • 8:43 - 8:44
    予想どおりです
  • 8:46 - 8:47
    ですが
  • 8:49 - 8:54
    分類2(不安定)、3(危機)
    4(極めて危険)に分類される言語でさえ
  • 8:54 - 8:59
    ウィキデータとその他における
    表出に関して
  • 8:59 - 9:02
    それほど悪くはありません
  • 9:03 - 9:06
    それが分かって良かった点です
  • 9:08 - 9:09
    同様に
  • 9:09 - 9:11
    例えばウィキペディアでの
  • 9:11 - 9:15
    こうしたラベルのコンテンツの
    利用度を見ると
  • 9:17 - 9:23
    ここでも同様の結果が分かります
  • 9:24 - 9:27
    つまり こうしたコミュニティーは
  • 9:27 - 9:31
    例えば 利用度の高い項目に
    ラベルを入力することにより
  • 9:31 - 9:35
    その時間を
    有益に活用しているのです
  • 9:36 - 9:38
    外れ値については
  • 9:38 - 9:45
    コミュニティーが
    その仕事が最も役立つ場を見つけられるよう
  • 9:45 - 9:48
    私たちが協力できるところだと思います
  • 9:49 - 9:53
    総合的には
    この分析結果に満足しています
  • 9:55 - 10:00
    ウィキデータの項目とプロパティを
    ご説明しました
  • 10:01 - 10:03
    次に皆さんの言語でのやりとりを
    見ていきましょう
  • 10:03 - 10:05
    ウィキデータの語彙素です
  • 10:05 - 10:09
    ここで語彙、語形、語義を表します
  • 10:10 - 10:13
    去年の5月からこれを行っていて
  • 10:16 - 10:19
    コンテンツは増加してきています
  • 10:20 - 10:22
    こちらの青が語彙素で
  • 10:22 - 10:26
    赤が語彙素における語形
  • 10:26 - 10:30
    黄色が語彙素における
    語義を示しています
  • 10:31 - 10:34
    後でも取り上げますが
    コミュニティーの一部は
  • 10:34 - 10:40
    語彙素の語形や語義の作成に
    たくさんの時間を費やしています
  • 10:40 - 10:43
    これは有益です
  • 10:43 - 10:48
    皆さんが必要なデータセットの中核が
    構築されるからです
  • 10:51 - 10:57
    次に ウィキデータに語彙素がある
    すべての言語を見てみました
  • 10:58 - 11:01
    つまりウィキデータにある
    言語の数です
  • 11:02 - 11:04
    現在 言語の数は310です
  • 11:05 - 11:08
    では ウィキデータの
    現在の語彙素数に関しては
  • 11:08 - 11:12
    何語が第1位だと思いますか
  • 11:13 - 11:15
    (聴衆)ロシア語
    [聞き取り不能]
  • 11:19 - 11:20
    何ですって?
  • 11:20 - 11:22
    (聴衆2)ドイツ語
  • 11:22 - 11:24
    先ほど聞こえてきたように
  • 11:24 - 11:25
    ロシア語です
  • 11:28 - 11:30
    ロシア語が抜きん出ています
  • 11:32 - 11:34
    相対感が分かるように
    ご説明しますと
  • 11:36 - 11:38
    異なる意見はありますが
  • 11:38 - 11:45
    例えば 別の言語で
    千から3千語で会話レベル
  • 11:45 - 11:49
    4千から1万語で
    上級レベルに達するそうです
  • 11:52 - 11:55
    ですからまだ
    そこまでのレベルには達していません
  • 11:58 - 12:03
    1つ注目していただきたいのは
    ここのバスク語で
  • 12:03 - 12:08
    約1万の語彙素があります
  • 12:09 - 12:13
    次に こうした語彙素に対する
    語形の数を見てみると
  • 12:14 - 12:16
    バスク語が
    かなり上位にあります
  • 12:18 - 12:20
    これはすごいですよね
  • 12:20 - 12:25
    この理由を説明する講演にも
    ぜひご参加ください
  • 12:27 - 12:31
    次に 言葉の意味に当たる
    語義の数を見てみると
  • 12:32 - 12:35
    バスク語がなんとリストの第1位です
  • 12:35 - 12:37
    これは拍手に値すると思います
  • 12:37 - 12:39
    (拍手)
  • 12:46 - 12:47
    皆さんに別の質問です
  • 12:47 - 12:50
    現在 最も翻訳されている
    語彙素は何でしょうか
  • 12:51 - 12:55
    (聴衆)ネコ
    ダグラス・アダムス[聞き取り不能]
  • 12:57 - 13:00
    すべて良い推測ですが 違います
  • 13:01 - 13:04
    これです
    ロシア語の「水」です
  • 13:10 - 13:16
    ウィキデータにある語彙素や語形や語義の
    数についてはお話しましたが
  • 13:16 - 13:22
    それは必要なことの1つで
    他に必要なのは
  • 13:22 - 13:25
    こうした語彙素や語形や意味を
  • 13:25 - 13:27
    機械に読める方法で
    表現することです
  • 13:28 - 13:30
    それには 文が必要で
    項目はその一例です
  • 13:31 - 13:36
    使用するプロパティの1つは
    文例です
  • 13:36 - 13:39
    これで データを使用している誰もが
  • 13:39 - 13:42
    文脈に応じて
    その言葉の使い方を理解できます
  • 13:42 - 13:44
    例えば 引用などが考えらます
  • 13:45 - 13:47
    ここではポーランド語が第1位です
  • 13:48 - 13:50
    ポーランド語話者の方々
    頑張りましたね
  • 13:54 - 13:58
    もう1つ役立つプロパティは
    IPA(発音記号)です
  • 13:58 - 14:00
    語彙の発音の仕方です
  • 14:01 - 14:07
    ロシア語は IPA文を
    たくさん必要としていますね
  • 14:10 - 14:13
    ですがここでも
    ポーランド語が第2位です
  • 14:17 - 14:21
    ウィキデータには
    音声データもあります
  • 14:21 - 14:26
    発せられた言葉を収めた
    ファイルへのリンクがコモンズにあるので
  • 14:26 - 14:29
    発音記号を読めない場合などに
  • 14:29 - 14:33
    ネイティブ スピーカーの
    発音を聞くことができます
  • 14:35 - 14:37
    またウィキベースを動力とする
  • 14:37 - 14:40
    Lingua Libreという
    プロジェクトがあります
  • 14:41 - 14:45
    ご自分の言語での
    言葉の録音に協力して
  • 14:45 - 14:48
    ウィキデータの語彙素へ追加すると
  • 14:48 - 14:52
    他の人がその言葉の
    発音の仕方を理解できます
  • 14:54 - 14:56
    (聴衆2)[聞き取り不能]
  • 14:56 - 14:58
    「Lingua Libre」と検索すると
  • 14:58 - 15:01
    テレグラムに
    誰かがそれを投稿してくれるはずです
  • 15:03 - 15:05
    彼らは素晴らしく
  • 15:05 - 15:07
    ウィキベースで
    優れた仕事をしています
  • 15:13 - 15:17
    次に知りたいのは
    将来の展望です
  • 15:19 - 15:22
    お見せしたデータに基づくと
  • 15:23 - 15:25
    ウィキデータの言語を見ると
  • 15:25 - 15:28
    もっと多くの人に 豊富な知識への
    アクセスを提供しようと
  • 15:28 - 15:31
    長い道のりをここまで来ました
  • 15:33 - 15:36
    ですが この先にも
    たくさんの仕事が控えています
  • 15:39 - 15:42
    例えば 皆さんが協力できることとして
  • 15:42 - 15:46
    マラソンのように
    皆で集まって一斉に
  • 15:46 - 15:50
    ウィキデータで
    項目にラベル付けをするとか
  • 15:51 - 15:55
    皆さんの言語の
    語彙素を編集して
  • 15:55 - 15:59
    最も利用されている言葉を皆さんの言語で
    ウィキデータに収めるようなことです
  • 16:01 - 16:03
    またはTerminatorのような
    ツールを使用して
  • 16:03 - 16:08
    皆さんの言語で
    まだラベルが付いていない
  • 16:08 - 16:12
    最重要項目を
    見つけてもいいでしょう
  • 16:13 - 16:17
    重要度を測るには
  • 16:17 - 16:21
    文中のリンクのような
    他のウィキデータの項目における
  • 16:21 - 16:22
    利用頻度によります
  • 16:26 - 16:30
    もちろん 語彙素に関しては
  • 16:31 - 16:35
    現在 基本的な語彙素は
    カバーしていますので
  • 16:35 - 16:41
    今後 大事なのは
    開発とさらなる文の追加です
  • 16:41 - 16:44
    しっかりとした基礎を築いて
  • 16:44 - 16:47
    その上に有意義な
    アプリケーションを開発することです
  • 16:48 - 16:51
    その臨界点には近付いてはいても
  • 16:51 - 16:56
    基礎の上に本格的なアプリケーションを
    開発できる所までは到達していないからです
  • 16:58 - 17:02
    皆さんにその仕事に
    ご参加いただければと思います
  • 17:03 - 17:09
    ここでちょっと
    友人から協力してもらいましょう
  • 17:10 - 17:12
    ブリューノ
    こちらへご登壇を
  • 17:14 - 17:17
    Lexicon Mask
    (辞書マスク)のお話をどうぞ
  • 17:17 - 17:19
    (ブリューノ)ありがとう リディア
  • 17:19 - 17:23
    Googleでの仕事をお伝えする
    時間をいただきまして
  • 17:23 - 17:24
    ありがとうございます
  • 17:24 - 17:29
    デニーのことは
    ご存知の方も多いでしょう
  • 17:30 - 17:32
    Googleで
    私は言語学者ですから
  • 17:32 - 17:36
    言語に熱意のある方々に囲まれ
    うれしく思います
  • 17:37 - 17:39
    私たちは
    辞書を開発しています
  • 17:39 - 17:45
    また皆さんに役立つテクノロジーや
    アプローチを開発しています
  • 17:46 - 17:48
    背景を少々お伝えしますと
  • 17:48 - 17:52
    これがここでお話している
    辞書編集の背景です
  • 17:53 - 17:55
    辞書データベースを開発した際に
  • 17:55 - 17:57
    恐らくご存知のように
  • 17:57 - 18:02
    データの維持や一貫性の保持や交換に
    悪銭苦闘しました
  • 18:02 - 18:06
    語彙素や語形を表している
  • 18:06 - 18:09
    特性やプロパティをまとめようと
    何度も試み
  • 18:09 - 18:11
    完全には解決していませんが
  • 18:11 - 18:14
    その面でいくらか統一されています
  • 18:14 - 18:15
    ですが不足していたのは―
  • 18:15 - 18:19
    これはGoogleでのプロジェクト
    開始時から抱えていた課題ですが
  • 18:19 - 18:22
    内部構造を持つ努力でした
  • 18:22 - 18:26
    しかるべき語彙記載項や
  • 18:26 - 18:29
    データの種類や
    所有情報の種類や
  • 18:29 - 18:32
    予期される規定などを
    表す内部構造です
  • 18:32 - 18:38
    そこで Lexicon Mask
    というものを考案しました
  • 18:39 - 18:45
    Lexicon Maskが表すのは
    エントリに予期される内容で
  • 18:45 - 18:47
    完了予定の
    辞書編集エントリです
  • 18:47 - 18:51
    これには
    語彙に予期される語形の数と
  • 18:51 - 18:56
    各語形に予期される特性の数の
    双方が含まれます
  • 18:56 - 18:58
    これはイタリア語の形容詞の例です
  • 18:58 - 19:02
    イタリア語では 形容詞に対して
    4つの語形が予期されます
  • 19:02 - 19:04
    性や数の特性に関して
  • 19:04 - 19:08
    各語形に特別な組み合わせがあります
  • 19:09 - 19:13
    これがイタリア語の形容詞に
    予期されることです
  • 19:13 - 19:16
    もちろん 極めて複雑な
    マスクになる可能性もあります
  • 19:16 - 19:21
    例えば フランス語の動詞活用は
    かなり広範囲です
  • 19:21 - 19:23
    ロシアのマスクは
    画面に収まらないので
  • 19:23 - 19:25
    今は表示されていません
  • 19:26 - 19:30
    詳細規定もあります
  • 19:30 - 19:33
    語形レベルで識別するからです
  • 19:33 - 19:35
    これはロシア語の名詞で
  • 19:35 - 19:40
    異なる語形での
    事例数が3つありますが
  • 19:40 - 19:43
    エントリレベルの規定もあって
  • 19:43 - 19:46
    特に名詞に
  • 19:46 - 19:50
    固有の性と
    固有の有生性の特性があり
  • 19:50 - 19:52
    これもマスクの中で規定されています
  • 19:55 - 20:00
    また マスクが一般的に
    しかるべきエントリに与える規定を
  • 20:00 - 20:02
    識別することが必要ですが
  • 20:02 - 20:07
    言語に発生する
    語形や語彙の欠如のため
  • 20:07 - 20:11
    より小さなマスクになる
    可能性もあります
  • 20:11 - 20:15
    これがフランス語の動詞の
    最もシンプルなバージョンで
  • 20:15 - 20:19
    例えば「雨が降る」
    「雪が降る」のような
  • 20:19 - 20:24
    天候に関する動詞すべてに
    三人称単数があるだけです
  • 20:25 - 20:27
    ですからこれら2つのレベルを識別します
  • 20:27 - 20:30
    Googleでこれを使用する方法は
  • 20:30 - 20:33
    使いたい辞書がある場合
  • 20:33 - 20:38
    文字通りマスクを
    辞書に投げて
  • 20:38 - 20:40
    すべてのエントリを
    マスクを通して
  • 20:40 - 20:44
    どのエントリに
    構造的問題があるか
  • 20:44 - 20:47
    語形や特性が
    不足しているのかを見ます
  • 20:47 - 20:51
    問題があれば
    人が検証を行うか
  • 20:51 - 20:54
    マスクを通過するかを見ます
  • 20:54 - 20:58
    ですから 構造の品質管理には
    非常に有益なツールです
  • 20:59 - 21:02
    今日発表いたしますのは
  • 21:02 - 21:05
    私たちのマスクの
    オープンソース化です
  • 21:06 - 21:08
    これがスキーマです
  • 21:08 - 21:09
    ご希望があれば
    公開して
  • 21:09 - 21:13
    ShExファイルとして
    ウィキデータに提供します
  • 21:13 - 21:17
    これがドイツ語名詞に対する
    ShExファイルです
  • 21:17 - 21:21
    内部仕様からオープンソース仕様への
    コンバージョンに
  • 21:21 - 21:23
    デニーが取り組んでいます
  • 21:24 - 21:27
    現在 25言語超をカバーしています
  • 21:27 - 21:30
    ウィキデータの発展を
    期待しているだけでなく
  • 21:30 - 21:34
    他の言語に対する
    協働の機会を求めてもいます
  • 21:34 - 21:41
    ダニーがルーカスと進行中の
    コラボレーションの1つは
  • 21:41 - 21:45
    ルーカスが持つ優れたツールで
  • 21:45 - 21:51
    UIのヘルプで ユーザーや貢献者に
    語形を追加してもらうものです
  • 21:51 - 21:54
    フランス語で
    形容詞を追加したい場合
  • 21:54 - 21:59
    UIが予期される語形の数と
  • 21:59 - 22:02
    語形がどんな特性を持つはずかを
    教えてくれます
  • 22:02 - 22:06
    ですから私たちのマスクが
    定義と拡張に役立ちます
  • 22:07 - 22:08
    以上です
  • 22:09 - 22:10
    (リディア)ありがとう
  • 22:10 - 22:12
    (拍手)
  • 22:14 - 22:17
    ご質問はありますか?
  • 22:17 - 22:19
    語彙素について
    詳しく知りたいですか
  • 22:20 - 22:23
    - (聴衆3)知りたいです
    - 分かりました(笑)
  • 22:33 - 22:35
    (聴衆3)私の質問は
  • 22:35 - 22:39
    もっと多くの言語で もっと多くの人に
    利用できるようにすると仰いましたが
  • 22:39 - 22:42
    ウィキデータで使用できない言語は
    たくさんあります
  • 22:42 - 22:44
    ウィキデータとしての解決策は?
  • 22:46 - 22:48
    ウィキデータで
    使用できないというのは
  • 22:48 - 22:50
    ラベルの記載のお話ですか?
  • 22:50 - 22:53
    - (聴衆3)ラベルや説明です
    - ええ
  • 22:53 - 22:55
    語彙素に対しては
    少し異なります
  • 22:55 - 22:58
    語彙素には
    その制限がないからです
  • 22:59 - 23:05
    項目やプロパティのラベルには
    いくらか制限があります
  • 23:05 - 23:08
    ウィキデータでは
  • 23:08 - 23:14
    誰もがすべてを行えるようには
    していないからです
  • 23:14 - 23:18
    そうすると
    管理が難しくなってしまいます
  • 23:19 - 23:23
    1つの言語に取り組みたい
    小さなコミュニティーであっても
  • 23:24 - 23:27
    ご要望いただければ
    実現させます
  • 23:27 - 23:29
    (聴衆3)5月にプラハの
    ハッカソンで要望しましたが
  • 23:29 - 23:32
    私たちの言語を使えるようになるには
    8月にまでかかりました
  • 23:32 - 23:35
    - ええ
    - (聴衆3)遅いのです
  • 23:35 - 23:37
    あいにく時間がかかります
  • 23:38 - 23:40
    現在 言語委員会と
  • 23:40 - 23:46
    基本部分の解決に取り組んでいます
  • 23:50 - 23:55
    どの言語が実際「許可」されるか
    について同意を得るのは
  • 23:56 - 23:59
    非常に時間がかかっています
  • 24:00 - 24:04
    これがご要望に対して
    必要以上に時間がかかった理由です
  • 24:05 - 24:06
    (聴衆3)ありがとう
  • 24:07 - 24:08
    (聴衆4)ありがとう
  • 24:08 - 24:11
    リディア
    見せていただいた統計に
  • 24:11 - 24:13
    言語ごとの語彙素の数がありましたが
  • 24:13 - 24:18
    データポイントとして
    すべての語形を合計したんでしょうか
  • 24:18 - 24:20
    それとも語彙素だけですか
  • 24:21 - 24:23
    (リディア)これですか
  • 24:23 - 24:24
    どれですか
  • 24:24 - 24:26
    (聴衆4)それです
  • 24:26 - 24:28
    この数は[聞き取り不能]
  • 24:28 - 24:32
    すべての語彙素に対するすべての語形ですか
    存在する語彙素の数ですか
  • 24:32 - 24:35
    - これは単に語彙素数の数です
    - (聴衆4)そうですか
  • 24:35 - 24:37
    では単なる統計値ですね
  • 24:37 - 24:39
    もし語形から成るものだったら...
  • 24:39 - 24:41
    それが質問の理由です
  • 24:41 - 24:43
    屈折形態を伴うすべての言語―
  • 24:43 - 24:45
    例えばロシア語やセルビア語
    スロベニア語などには
  • 24:45 - 24:48
    語形が数多くあることになるので
    元から有利です
  • 24:48 - 24:52
    それがここの語形数に
    影響しています
  • 24:52 - 24:54
    (聴衆4)分かりました
    ありがとう
  • 24:57 - 25:00
    (聴衆5)簡単な質問ですが
  • 25:01 - 25:07
    実際の項目とプロパティに関し
  • 25:07 - 25:09
    私が理解している限りでは
  • 25:09 - 25:12
    与えられた
    どのラベルや説明にも
  • 25:12 - 25:16
    現在 実際のソースを
    提供する方法はないんですよね
  • 25:16 - 25:21
    例えば 項目のプロパティの場合
  • 25:21 - 25:25
    相反するラベルが得られるかもしれない
  • 25:25 - 25:26
    そうです
  • 25:28 - 25:31
    先ほど 固有性というお話がありましたが
  • 25:31 - 25:36
    例えば 芸術家が あるソースによれば
    ノルウェー人であり
  • 25:36 - 25:39
    別のソースによれば
    サーミ人であるとか
  • 25:40 - 25:42
    エストニア人であったりします
  • 25:43 - 25:49
    公式の辞書の中でその言葉を
    公式の用語に変える必要がありましたが
  • 25:49 - 25:52
    理由を示す方法がありません
  • 25:52 - 25:54
    このソースは何だったかとか
  • 25:54 - 25:56
    変更理由とか
    以前の内容などを示せません
  • 25:56 - 26:00
    誰かが理由もなく
    変更したように見えてしまいます
  • 26:00 - 26:03
    言語データに対して
    適切なソースを持てるように
  • 26:03 - 26:06
    これを変更する計画はありますか?
  • 26:07 - 26:11
    それは部分的に可能です
  • 26:12 - 26:16
    例えば 人物に対する項目があって
  • 26:17 - 26:23
    その人物に関する
    文や氏名などが続きます
  • 26:23 - 26:26
    そこで出典を付けることができます
  • 26:28 - 26:32
    ラベルや説明の出典を
  • 26:32 - 26:36
    今より複雑にするのは避けたいですが
  • 26:36 - 26:41
    これは 文上のどの出典によっても
    取り上げられていないと
  • 26:41 - 26:45
    人々が強く希望するのであれば
  • 26:45 - 26:47
    議論の余地はあります
  • 26:49 - 26:53
    ですが 数少ないであろう事例のために
  • 26:53 - 26:57
    複雑になってしまうのが心配です
  • 26:57 - 27:00
    皆さんが強く望まれるものなら
  • 27:00 - 27:04
    喜んでそうしたいのですが
  • 27:04 - 27:08
    (聴衆5)追加されるのであれば
    デフォルトではなく
  • 27:08 - 27:12
    初心者などには表示されない
    インターフェースにして
  • 27:12 - 27:16
    「詳細を追加するなら ここをクリック」
    などとするといいでしょう
  • 27:18 - 27:23
    実際 問題になりうる頻度はどうでしょう
  • 27:25 - 27:26
    (聴衆5)エストニア語では
    例えば―
  • 27:26 - 27:29
    これは他の言語にも
    当てはまると思いますが
  • 27:29 - 27:36
    例えば 正規に英語に翻訳されている
  • 27:36 - 27:40
    特定の行政区の公式名があって
  • 27:40 - 27:42
    それが私のユースケースでした
  • 27:42 - 27:44
    かつて「parish」という
    言葉を使っていて
  • 27:45 - 27:51
    それが元のエストニア語の言葉では
    教会区というような意味であり
  • 27:51 - 27:52
    それが由来でしたが
  • 27:52 - 27:55
    それは現在エストニア語で
    公式の翻訳ではありません
  • 27:55 - 27:59
    そのケースでは
    公式名を文に追加して
  • 27:59 - 28:01
    出典もそこに追加できます
  • 28:02 - 28:03
    (聴衆5)分かりました
  • 28:05 - 28:07
    他にご質問は?
  • 28:08 - 28:10
    (聴衆6)意見が2つあります
  • 28:10 - 28:14
    良い成績の言語として
    アストゥリアス語を特に挙げられましたが
  • 28:14 - 28:16
    誤ったアーティファクトだと思います
  • 28:16 - 28:18
    教えてください
  • 28:18 - 28:20
    (聴衆6)それはボットが
  • 28:20 - 28:24
    人名や固有名詞を
    貼り付けたものだと思います
  • 28:24 - 28:27
    「フランス語やスペイン語でも
    まったく同じ」と言うように
  • 28:27 - 28:29
    ただ大量にコピーしたんです
  • 28:29 - 28:32
    証拠の1つに
    アストゥリアス語で
  • 28:32 - 28:35
    固有名詞以外の
    プロパティ名や項目名などで
  • 28:35 - 28:39
    翻訳を必要としている取り組みは
    あまり見られません
  • 28:40 - 28:41
    心が痛みます
  • 28:41 - 28:44
    (聴衆6)分かります
    水を差してしまいましたよね
  • 28:44 - 28:48
    でも 良いこともあります
    発音の数です
  • 28:49 - 28:54
    恐らくご存知のように
    コモンズは発音のファイルがいっぱいで
  • 28:54 - 28:55
    例えば
  • 28:55 - 29:01
    オランダ語はコモンズにすでに
    30万以上の発音のファイルがあり
  • 29:02 - 29:05
    方法はどうあれ
    取り込まれる必要があるだけです
  • 29:05 - 29:08
    サイドプロジェクトを
    探している方がいれば
  • 29:08 - 29:09
    大量に
  • 29:09 - 29:13
    分類された発音のファイルが
    コモンズの
  • 29:13 - 29:17
    「Pronunciation(発音)」
    項目に言語別にあり
  • 29:17 - 29:23
    語彙素との一致と語彙素への掲載を
    ただ待っている状態です
  • 29:23 - 29:27
    ロードマップについて
    言えることはありますか
  • 29:27 - 29:29
    投資額とか
  • 29:29 - 29:32
    来たる年に
    語彙素から期待できることなど
  • 29:32 - 29:34
    私も待ちきれない一人ですから
  • 29:35 - 29:37
    待ちきれないですか?(笑)
  • 29:37 - 29:39
    - (聴衆6)期待してます
    - はい(笑)
  • 29:45 - 29:50
    現在は ウィキベースと
    データの質のほうに力を入れて
  • 29:51 - 29:55
    これがどれだけ
    けん引力を得られるか見ています
  • 29:55 - 30:02
    その次に 解決が難しい
    問題に取り組み
  • 30:02 - 30:06
    その後 辞書学データの
    さらなる改善に戻る予定です
  • 30:07 - 30:10
    あなたにお聞きしたいことの1つは
  • 30:10 - 30:14
    次のステップとなる箇所と
  • 30:14 - 30:16
    改善点を見たい箇所です
  • 30:16 - 30:20
    そうすれば
    実現の方法を考えます
  • 30:21 - 30:23
    もちろん仰ることは正しく
  • 30:23 - 30:26
    技術面での仕事は
    まだたくさんあります
  • 30:31 - 30:36
    (聴衆7)バスク語の言葉を
    語形と一緒にアップロードしていた際に
  • 30:36 - 30:38
    こんなことがありました
  • 30:38 - 30:41
    先週 私たち二人とも
    自分たちが初だと言っていたら
  • 30:43 - 30:45
    報道されて
  • 30:45 - 30:49
    「バスク語で初の業績―
    彼らが初の何かを」と
  • 30:49 - 30:51
    (笑)
  • 30:51 - 30:53
    そしてこれは何のためかと
    聞かれたんです
  • 30:55 - 30:57
    私たちには
    良い答えがありませんでした
  • 30:57 - 30:58
    これによって
  • 30:58 - 31:02
    コンピュータが私たちの言語を
    理解しやすくなるのは分かりますが
  • 31:02 - 31:05
    将来 どんなツールを
    開発できるでしょうか
  • 31:05 - 31:07
    私には分かりませんが
  • 31:07 - 31:11
    これに対する
    良い答えをお持ちでしょうか
  • 31:11 - 31:13
    (笑)私に良い答えがあるか
    分かりませんが
  • 31:13 - 31:15
    答えはあります
  • 31:15 - 31:20
    現在は 先ほどお伝えしたように
  • 31:20 - 31:24
    数々の興味深いツールを
    開発できるような
  • 31:24 - 31:26
    臨界点には達していません
  • 31:26 - 31:28
    でもすでに
    ツールはいくつかあります
  • 31:28 - 31:32
    例えば つい先日
    エスター・パンデリアが
  • 31:32 - 31:34
    ツールをリリースしました
  • 31:36 - 31:38
    それは世界の言語が
  • 31:38 - 31:42
    どこで話され どこから来ているか
    分かるものです
  • 31:43 - 31:44
    確かではありませんが
  • 31:44 - 31:47
    ウィキデータのプロジェクトチャット上で
    公表されました
  • 31:47 - 31:49
    お調べいただけます
  • 31:50 - 31:54
    ウィキペディア開始時に
    見ていたように
  • 31:54 - 31:56
    最初のツールを見ています
  • 31:57 - 32:00
    最初は...
    ネットワークと同様
  • 32:00 - 32:03
    徐々に繋がりが明らかになります
  • 32:05 - 32:07
    データが増えるにつれ
  • 32:07 - 32:10
    臨界に達して
  • 32:12 - 32:15
    性能の良い
    アプリケーションが可能になります
  • 32:16 - 32:18
    例えば ヒストロペディアや
  • 32:19 - 32:24
    携帯端末での質疑応答や
  • 32:24 - 32:27
    Platypusなどのようなものです
  • 32:27 - 32:30
    語彙素でも
    同様のものを見ています
  • 32:31 - 32:35
    このようなものを
    開発できる段階には来ていて
  • 32:35 - 32:37
    関連性も分かっていて
  • 32:38 - 32:43
    別の言語へ
    言葉を翻訳できる段階なので
  • 32:43 - 32:48
    開発につれ
    より多くの言葉を表すにつれ
  • 32:48 - 32:50
    たくさんのことが可能になります
  • 32:50 - 32:52
    何が可能になるかというと
  • 32:53 - 32:59
    基調講演でベンが
    翻訳についてお話したように
  • 33:00 - 33:03
    1つの言語から別の言語へ
    翻訳できます
  • 33:03 - 33:08
    また同僚のイェンスが
    いつも言うことには
  • 33:08 - 33:11
    欧州連合が
    翻訳者を求めているそうで
  • 33:11 - 33:17
    マルタ語から
    スウェーデン語へ翻訳できる―
  • 33:17 - 33:19
    - (聴衆8)エストニア語です
    - 失礼
  • 33:22 - 33:26
    あまりない組み合わせですね
  • 33:27 - 33:32
    こうした言語がすべて
    機械で読める1か所の場所にあれば
  • 33:32 - 33:33
    翻訳できるのです
  • 33:33 - 33:37
    エストニア語からマルタ語へ
    またはその逆でも翻訳できる
  • 33:37 - 33:42
    辞書が手に入るのです
  • 33:43 - 33:46
    今までは 例えばコストの面から
    作業を正当化できるほど
  • 33:46 - 33:48
    十分な需要がなかったため
  • 33:48 - 33:51
    これまで辞書でカバーされていなかった
  • 33:51 - 33:56
    言語の組み合わせがあったわけですが
  • 33:56 - 33:57
    それが今は行えます
  • 34:00 - 34:02
    それと テキスト生成です
  • 34:02 - 34:04
    ルーシーが先ほど
  • 34:04 - 34:06
    テキスト生成に関して
  • 34:06 - 34:10
    少数言語で
    ウィキペディアの記事を開始するため
  • 34:10 - 34:15
    ハッティとどのように
    取り組んでいるかをお話しました
  • 34:15 - 34:20
    それには 言葉に関するデータが必要で
  • 34:20 - 34:23
    そのためには その言語について
    理解する必要があります
  • 34:24 - 34:28
    そうしたことが
    今私に浮かんだアイデアです
  • 34:29 - 34:31
    その壮大なデータが得られた場合
    何をしたいか
  • 34:31 - 34:34
    皆さんには もっとアイデアが
    あるかもしれませんね
  • 34:38 - 34:41
    (聴衆9)語彙素のトピックから
    外れますが
  • 34:41 - 34:43
    質問させてください
  • 34:43 - 34:47
    コミュニティーの一員として
    仕事の優先順位に
  • 34:47 - 34:50
    私はどう影響を与えられるでしょうか
  • 34:50 - 34:55
    新規ユーザーが
    秘密の合言葉なしに
  • 34:55 - 35:01
    編集したい言語を
    示せるようにできるのでしょうか
  • 35:02 - 35:04
    ウィキペディアのトピックなしの
  • 35:04 - 35:07
    技術的要望リストがいつの日か
    訪れるかも知れません
  • 35:07 - 35:10
    7年間放置されていたことが
  • 35:10 - 35:14
    全員一致の意見で直すことに
    なるかも知れません
  • 35:14 - 35:18
    これについて
    お考えやご意見は?
  • 35:18 - 35:20
    仰っているのは
  • 35:20 - 35:24
    ウィキデータに
    ログインしていない人が
  • 35:24 - 35:26
    簡単に言語を変更できないという
    問題ですか?
  • 35:26 - 35:28
    (聴衆9)いいえ
    新規ユーザーです
  • 35:28 - 35:31
    新規ユーザーが
    ログインしていれば
  • 35:31 - 35:35
    ページ上部で
    言語を変更できますし
  • 35:36 - 35:40
    ラベルの説明が
    [聞き取り不能]場所に
  • 35:40 - 35:42
    それが表示され
  • 35:42 - 35:43
    編集できます
  • 35:46 - 35:49
    (聴衆9)大抵の
    ワークフローでは
  • 35:49 - 35:52
    複数の言語を望めば
    利用できますが
  • 35:52 - 35:55
    いつもそうとは限りません
  • 35:55 - 35:59
    この講演の後に
    詳しく伺いましょう
  • 36:02 - 36:04
    いいですね
    他にご質問は?
  • 36:06 - 36:07
    どうぞ
  • 36:12 - 36:13
    (聴衆10)良いプレゼンでした
  • 36:14 - 36:18
    ウィクショナリーのコミュニティーとの
    相互関係の状態について
  • 36:18 - 36:19
    ご意見をください
  • 36:19 - 36:21
    私が見ている限り
  • 36:21 - 36:26
    作業の重要な要素のインポートについて
    議論がありますが
  • 36:26 - 36:31
    ライセンスの問題や
    異論などがあるようです
  • 36:31 - 36:32
    はい
  • 36:32 - 36:35
    ウィクショナリーのコミュニティーは
  • 36:35 - 36:39
    ウィクショナリー開発に
    長い時間をかけてきています
  • 36:40 - 36:43
    彼らが開発してきた
  • 36:43 - 36:48
    驚くほど難しく複雑な
    テンプレートは
  • 36:48 - 36:54
    きれいな表を作成して
    フォームを自動生成してくれたり
  • 36:54 - 37:00
    いろいろと素晴らしく
    並外れたことをしてくれます
  • 37:02 - 37:08
    もちろん 彼らは多くの時間と努力を
    費やしてきています
  • 37:09 - 37:12
    当然のことながら
  • 37:12 - 37:19
    ただそんな具合に
    誰かの手に渡したくはないのです
  • 37:19 - 37:22
    ライセンスの問題は
    そこから生じているものもあります
  • 37:23 - 37:25
    それでいいのです
  • 37:26 - 37:31
    最初のウィクショナリーの
    コミュニティーが調整を行い
  • 37:31 - 37:34
    ウィキデータへデータを
    インポートする話をしています
  • 37:34 - 37:39
    ご覧になったロシア語は
    その一例で
  • 37:40 - 37:42
    これは今後も起こると思います
  • 37:44 - 37:47
    時間のかかるプロセスです
  • 37:47 - 37:50
    ウィキペディアへ
    ウィキデータのデータを採用するのと同様
  • 37:50 - 37:52
    時間がかかります
  • 37:53 - 37:59
    語彙素データを
    利用しやすくする一方で
  • 37:59 - 38:02
    ウィクショナリーでも
    それを活用し
  • 38:02 - 38:06
    語彙素とウィクショナリー間で
    データを共有できるようにするのは
  • 38:06 - 38:09
    現状では困難です
  • 38:09 - 38:12
    ウィキペディアであったように
    とんでもないことです
  • 38:14 - 38:16
    誕生日プレゼントを
    お待ちください(笑)
  • 38:20 - 38:21
    どうぞ
  • 38:23 - 38:26
    (聴衆11)ばかげているので
    言いたくなかったのですが
  • 38:26 - 38:28
    逆の見方をしていました
  • 38:28 - 38:32
    ウィクショナリーに
    すでにコンテンツがあっても
  • 38:32 - 38:34
    ライセンスで違いがあるため
  • 38:34 - 38:37
    ウィキデータに転送できないと
    分かっていますが
  • 38:37 - 38:40
    それに対処できるのではと
    考えていました
  • 38:40 - 38:46
    例えば コミュニティーの許可を得た後に
  • 38:46 - 38:51
    公開投票などを行い
  • 38:52 - 38:57
    コミュニティーに対しては
    アクティブなメンバーが投票し
  • 38:57 - 39:03
    コンテンツ転送の
    承認や可否について発言し
  • 39:03 - 39:06
    それに対し ウィキデータの語彙素に
    取り組めばいいと思います
  • 39:06 - 39:09
    もったいないからです
  • 39:10 - 39:15
    それはまさにウィクショナリーの
    コミュニティーにいる人たちが
  • 39:15 - 39:18
    快く議題として取り上げるお話です
  • 39:18 - 39:25
    私たちがそこで押し付けるのは
    厚かましいですが
  • 39:26 - 39:31
    話し合うのは
    確かに価値があると思います
  • 39:31 - 39:35
    ですが 法的に許可されることと
  • 39:35 - 39:39
    私たちがすべきことと
  • 39:39 - 39:43
    人々が望むこと
    望まないことの間には
  • 39:43 - 39:45
    相違があると
    理解するのも重要です
  • 39:46 - 39:47
    ですから 法的に許可されても
  • 39:47 - 39:51
    ウィクショナリーの
    コミュニティーが望まなければ
  • 39:51 - 39:54
    少なくとも
    気を付けたほうがいいでしょう
  • 39:59 - 40:02
    マイクをお持ちください
  • 40:05 - 40:07
    (聴衆12)すべて素晴らしいお話でした
  • 40:08 - 40:12
    すぐに思ったことは
    私の生徒にどうやって伝えようかとか
  • 40:12 - 40:16
    課程にどう組み込もうかとか
  • 40:16 - 40:19
    私たちの仕事や
    教育の場面などでした
  • 40:19 - 40:24
    私には 現時点で
    まず十分な知識がありません
  • 40:24 - 40:27
    ですが 今あるドキュメンテーションは
  • 40:28 - 40:30
    改善の余地があると思います
  • 40:30 - 40:32
    そこでリクエストしたいのは
  • 40:32 - 40:36
    仕組みを説明してくれる動画です
  • 40:36 - 40:40
    それがあれば 活用できます
  • 40:40 - 40:42
    生徒に参加してもらったり
  • 40:42 - 40:47
    どれだけ素晴らしいかを
    人々に理解してもらえます
  • 40:47 - 40:52
    ぜひドキュメンテーションと
    教育についてお考えください
  • 40:52 - 40:54
    多くの成果が得られるはずです
  • 40:54 - 40:59
    たくさんの仕事を…
  • 41:00 - 41:02
    小中学校とは言いませんが
  • 41:02 - 41:05
    若い生徒たちに行ってもらえます
  • 41:06 - 41:11
    その可能性を
    取り入れていただければと思います
  • 41:11 - 41:15
    現時点で 私は十分に理解していないので
  • 41:15 - 41:22
    タスクの作成や実用的な仕事が
    できるわけではありません
  • 41:22 - 41:26
    どんな支援や意見についても
    ここのどなたかがお持ちであれば
  • 41:26 - 41:30
    ご自身のご意見も含め
    お聞かせいただければ
  • 41:31 - 41:32
    ええ 後ほどお話しましょう
  • 41:35 - 41:37
    他にご質問は?
  • 41:38 - 41:39
    先ほど挙手がありましたが
  • 41:39 - 41:40
    どなたでしょう
  • 41:46 - 41:50
    (発言者13)ウィクショナリーから
    インポートできないなら
  • 41:50 - 41:56
    他のパブリック ドメインのソースや
    あらゆるデータを見つけるための
  • 41:56 - 41:57
    協調努力はありますか
  • 41:59 - 42:03
    それを事前にフィルタリングしたり
    整理したりすれば
  • 42:03 - 42:08
    人々が確認して
    インポートしやすくなります
  • 42:09 - 42:11
    努力はあります
  • 42:11 - 42:15
    私の知る限り
    バスク語がその努力の1つですが
  • 42:15 - 42:17
    それについて
    仰りたいことがあればどうぞ
  • 42:18 - 42:20
    (聴衆14)[聞き取り不能]
  • 42:23 - 42:27
    解決策は
    それに対する支払いです...
  • 42:28 - 42:33
    私たちには通常 一緒に仕事をしている
    委託業者との契約があり
  • 42:35 - 42:38
    彼らが辞書関連の仕事をしています
  • 42:39 - 42:42
    他の業務に加えて
    辞書関連の仕事をしています
  • 42:42 - 42:47
    私たちは業者と生徒向けの無料の
    辞書を開発する契約をしており
  • 42:47 - 42:50
    最も一般的な言葉を[キャスト]し
  • 42:50 - 42:56
    外部識別子やスキーマと共に
    アップロードするものです
  • 42:56 - 43:03
    それをパブリック ドメイン(CC0)に
    することには議論がありました
  • 43:03 - 43:06
    CCを伴う辞書を
    所有しているからです
  • 43:07 - 43:10
    彼らは相違点を理解していました
  • 43:10 - 43:14
    ですから 議論はありましたが
  • 43:14 - 43:20
    将来 私たちがツールや事例を
    提供できると思いますし
  • 43:20 - 43:24
    私たちが扱える
    他の辞書も予定されています
  • 43:24 - 43:29
    ウィクショナリーもその方向に
    進み始めたほうがいいと思いますが
  • 43:29 - 43:32
    それはまた
    別の大きな議論が必要でしょう
  • 43:33 - 43:34
    それに加えて
  • 43:34 - 43:39
    オクシタン語の辞書に取り組む
    オクシタン出身の人々と
  • 43:39 - 43:42
    リーアが連携して
  • 43:42 - 43:45
    現在 シュメール語の
    コラボレーションに取り組んでいます
  • 43:52 - 43:53
    他にご質問は?
  • 44:01 - 44:05
    (聴衆15)オクシタン語のデータを
    インポートしたいのですが
  • 44:05 - 44:07
    いいタイミングですね
  • 44:07 - 44:08
    (聴衆15)少し問題があり
  • 44:09 - 44:14
    多様な語彙素のすべてを表す
    方法が分かりません
  • 44:14 - 44:18
    私たちには6つの方言があり
  • 44:18 - 44:24
    どの方言が使われているかを
    語彙素に示したいのです
  • 44:24 - 44:27
    でも それを行うのに
    適切なC0文がありません
  • 44:27 - 44:32
    セグメントが存在しない限り
  • 44:32 - 44:34
    [聞き取り不能]ができません
  • 44:34 - 44:38
    文へエキスポートできるようになった時に
  • 44:38 - 44:42
    再度行う必要が出てくるからです
  • 44:42 - 44:48
    たくさんの人が依頼する
    文ではないので 複雑です
  • 44:48 - 44:53
    大抵は少数言語に
    関係する文だからです
  • 44:53 - 44:57
    依頼するのが一人だけのこともあります
  • 44:57 - 45:00
    ですが バスク語の同僚たちにとっては
  • 45:00 - 45:06
    一人でも 何千もの他の人に
    力を与えられるかもしれません
  • 45:06 - 45:11
    ですから 依頼が多くなくても
  • 45:11 - 45:14
    重要なのです
  • 45:15 - 45:18
    新しいプロパティの提案は
    済んでいますか?
  • 45:18 - 45:19
    それとも提案に協力が必要ですか?
  • 45:22 - 45:24
    (聴衆15)4か月前にお願いしました
  • 45:25 - 45:29
    では誰かにそのプロパティの提案に
    協力してもらいましょう
  • 45:30 - 45:33
    この部屋に 実現してくれる人が
    十分いるはずです
  • 45:33 - 45:36
    (聴衆15)プロパティ提案
    [フランス語]
  • 45:36 - 45:40
    回答がなく方法が分かりません
  • 45:40 - 45:43
    私たちはウィキデータの
    コミュニティーには属していませんから
  • 45:45 - 45:49
    ええ ですから
    ここに協力できる人たちがいます
  • 45:49 - 45:52
    ご協力いただける方は
    手を挙げてください
  • 45:52 - 45:54
    (聴衆14)私がやります
  • 45:54 - 45:56
    語形の異形だけでなく
  • 45:56 - 46:02
    座標や何らかのマッピングで
    それを地理的にも扱えるのが
  • 46:02 - 46:05
    とても興味深いです
  • 46:06 - 46:08
    異なる発音があるということも
  • 46:08 - 46:12
    たくさんの言語に
    当てはまることだと思います
  • 46:13 - 46:16
    実現に向けて取り組むべきです
  • 46:16 - 46:19
    プロパティを検索します
  • 46:20 - 46:21
    いいですね
  • 46:21 - 46:24
    あなたのプロパティ提案に
    サポートがあるはずです
  • 46:26 - 46:27
    ありがとうございます
  • 46:28 - 46:30
    他にご質問は?
  • 46:32 - 46:33
    フィン
  • 46:34 - 46:38
    フィンは辞書学データを基に
    開発している者の一人です
  • 46:38 - 46:40
    (フィン)ちょっとした質問ですが
  • 46:40 - 46:44
    異なる綴りについてです
  • 46:45 - 46:48
    作業が難しいようです
  • 46:49 - 46:53
    もちろん 同じ言葉に
    複数の語形がある場合はありますが
  • 46:56 - 46:58
    どうやら…
  • 47:00 - 47:04
    そうでなければ
    規定が難しく
  • 47:05 - 47:10
    単に小さな技術面での問題なのか
    分かりませんが
  • 47:10 - 47:11
    後で一緒に話しましょう
  • 47:12 - 47:15
    例を見てみたいです
  • 47:17 - 47:18
    アザーフ
  • 47:27 - 47:28
    (アザーフ)ありがとう
  • 47:29 - 47:34
    私の母国語ヘブライ語から
    具体例を挙げますと
  • 47:34 - 47:39
    ヘブライ語には
    ほぼすべての言葉の表現に
  • 47:39 - 47:43
    2つ主な異形があります
  • 47:43 - 47:50
    伝統的な綴りでは
    多くの母音が除外されるからです
  • 47:51 - 47:55
    ですから 聖書や詩の現代版では
  • 47:55 - 47:57
    付加記号が使われています
  • 47:57 - 48:00
    しかしながら
    こうした付加記号は
  • 48:00 - 48:04
    現代の散文や新聞記事や
    道路標識などでは
  • 48:04 - 48:06
    全く使われていません
  • 48:06 - 48:11
    ですから 平均的な
    日常のカジュアルな使用では母音を加え
  • 48:12 - 48:14
    付加記号を使いません
  • 48:14 - 48:15
    より面倒なことになり
  • 48:15 - 48:18
    いろいろな規則があるものの
    誰も理解していないからです
  • 48:19 - 48:21
    ですから 2つの異形があって
  • 48:21 - 48:25
    日常のカジュアルな散文で
    使われるものと
  • 48:25 - 48:30
    常に伝統的な
    記号が付加された文章で現れる
  • 48:30 - 48:32
    聖書や詩で使われるものです
  • 48:32 - 48:34
    語彙素が役立つには
  • 48:34 - 48:37
    ありとあらゆる言葉と
    ありとあらゆる言葉の語形の
  • 48:37 - 48:40
    両方の異形を
    認識する必要があります
  • 48:41 - 48:43
    これは公式の不変の異形に対する
  • 48:43 - 48:46
    とても包括的なユースケースです
  • 48:46 - 48:49
    方言ではなく
    地域でもなく
  • 48:49 - 48:54
    2つの共存している
    形態体系なのです
  • 48:55 - 48:59
    現在の語彙素でこれを表す方法を
    私もよく分かっていません
  • 48:59 - 49:03
    マグナスの質問に一部
    回答することになりますがー
  • 49:03 - 49:06
    公開されている最大のヘブライ語辞書から
    準備できている部分を
  • 49:06 - 49:08
    私がアップロードできていない
    理由の1つです
  • 49:08 - 49:13
    その辞書は私が7年間デジタル化しており
  • 49:13 - 49:15
    かなりの量が準備できていますが
  • 49:15 - 49:17
    現在語彙素に移していません
  • 49:17 - 49:20
    この問題の解決法が
    よく分からないからです
  • 49:20 - 49:23
    では その問題を
    ここで解決しましょう(笑)
  • 49:25 - 49:26
    可能なはずです
  • 49:30 - 49:32
    では 他に質問は?
  • 49:37 - 49:40
    なければ以上です
    ありがとうございました
  • 49:41 - 49:43
    (拍手)
Title:
cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:
English
Duration:
49:51

Japanese subtitles

Revisions