Japanese subtitles

← 22-12 Lpcfg

Get Embed Code
2 Languages

Showing Revision 2 created 11/29/2014 by Udacity.

  1. では復習です
    まずは文脈自由文法からはじめましょう
  2. 形式のルールとして
    V→PV NP NPというものがあります
  3. これがプログラミング言語で使われている
    文法でもあります
  4. そして確率の考え方を加えて
    確率文脈自由文法を学びました
  5. 右側の式を括弧でくくりますが
    もう少し分りやすく考えてみましょう
  6. 左側がVPである時このルールの確率は
    いくつかということを考えます
  7. 確率は0.2としました
  8. 次のステップは語彙化です
    語彙化した確率文脈自由文法を見ていきましょう
  9. 語彙化した確率文脈自由文法では
    左側のカテゴリを使わず特定の単語を使います
  10. その方法は複数あります
  11. 1つは動詞句が動詞に
    2つの名詞句が続く場合の確率です
  12. 何が実際の動詞かについて条件をつけましょう
  13. 動詞がgaveである場合
    比較的に高い確率にします
  14. 例えば“He gave me the money”は
    直接目的語と間接目的語を使う
  15. 一般的なgaveの用法です
  16. 確率は0.25くらいでしょう
    動詞をsaidにして同じルールで比べてみます
  17. 通常saidという動詞は1つの目的語を持ちます
  18. 例えば“He said something”から分かるように
    目的語を2つ持つことはありません
  19. つまり“He said me something”や
    “I said me my piece”とはあまり言いません
  20. そのためとても低い確率になります
  21. ツリーバンクがあれば確率がどれくらい低いか
    分かりますが今は0.0001%としておきます
  22. この確率にしましたが辞書を引くと言葉の意味や
  23. 動詞が他動詞か自動詞かが載っています
  24. 例えば動詞句が動詞だけで構成される確率は
    いくつでしょうか?
  25. または動詞句が動詞に続く名詞句で
    構成される確率はいくつでしょうか?
  26. quakeという単語で考えてみましょう
  27. ここにただ数字を書くこともできますが
    辞書を引けばヒントを得られます
  28. quakeは自動詞だと書いてあります
  29. つまりこの確率はゼロになります
  30. こちらの確率は高くなりそうですが
    実際にquakeが利用されているシーンを考えると
  31. quakeは常に自動詞というわけではありません
  32. Webでquakeを検索すると2万件の結果が出てきます
    すべてが有効な文章ではありません
  33. 非文章文脈つまり単語のリストで
    偶然一緒になった単語もあります
  34. またquakeが他動詞的に使われている文章は
    何千も見つかります
  35. 従ってここはゼロではなく
    0.0001くらいでしょうか
  36. しかし辞書では真か偽かのどちらかで
    論理的で正確な答えが示されます
  37. 示されているよりも言語は複雑です
  38. 語彙化された文法は
    必要なことをもっと示しています
  39. まだtelescopeの問題は解決していませんね
  40. 解決のために名詞句に前置詞句が続いている場合の
    確率を考えてみましょう
  41. また動詞に名詞句そして前置詞句が続く動詞句の
    確率は何でしょうか?
  42. 動詞の場合で検証してみましょう
  43. 動詞がsawで名詞句が主要語である場合を考えます
  44. つまり主動詞がmanに対応し
    前置詞句がwithとtelescopeで構成される場合です
  45. 名詞句の主要語がmanで前置詞句が
    withとtelescopeである時の確率と比較しましょう
  46. 多くの条件があるので
    この確率は取得しづらいですね
  47. 右側に特定の単語が3つあります
  48. 推定するのは難しいのでバックオフするモデルが
    必要かもしれません
  49. manという単語そのものではなく
    生きている人間を表すようなものです
  50. 以前のモデルを使ってスムージングと
    バックオフする方法を見てみましょう
  51. 一般的なケースで語彙化したモデルと同じように
    実行できます
  52. 確率に基づいて選択することがポイントです
  53. モデルを見て分析しツリーバンクから得たデータを
    分析して確率を求めます
  54. 情報を集め正しい文章の解釈をして
  55. 曖昧性を解消し
    どれが確率の高い単語か見つけ出します