YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Japanese subtitles

← 21-37 Spelling Correction

Get Embed Code
2 Languages

Showing Revision 1 created 11/29/2014 by Udacity.

  1. もう1つ確率的な問題の例を挙げましょう
    スペル修正です
  2. スペルに誤りがある単語に対し
  3. どのように最適な修正語を導くとかいう問題です
  4. これまでと同じ分析をしてみます
  5. 最適だと思われる修正語をC*として
    数式を立てます
  6. C*はすべての修正語の候補cのargmaxに等しく
    ある単語が与えられた時の
  7. 可能な修正の確率P(c|w)を最大化します
  8. これが最適な修正語を得る定義を表す式です
  9. ここから分析してベイズの定理を適用すると
  10. これが修正されるべき元の単語の確率P(w|c)と
  11. 修正語cの確率の積に等しいことが分かります
  12. ベイズの定理では分母の要素が必要ですが
    どの修正cとも同じなので
  13. ここでは省略します
  14. 従って最大値を取るために必要なのは
    この2つの確率だけです
  15. ここでは逆向きのステップを取るようです
  16. こちらでは推定する確率は1つでしたが
  17. ベイズの定理を適用し推定する確率は
    2つになりました
  18. しかしデータが得られれば
    この推定に役立てることができます
  19. P(c)が表すユニグラムの統計
    つまり修正語の確率は
  20. 集めた文書から得ることができるので
    コーパスを見ていきます
  21. 修正語の確率P(c)は
    データから得られます
  22. 文書データの数に合わせて
    最適なスムージングを選び適用します
  23. もう1つここで求める確率は
    cと入力すべき単語が
  24. wで入力されてしまった場合の確率で
    こちらはより複雑です
  25. 入力された文書を見るだけでは
    こうした単語一覧を探し出すことはできません
  26. 与えられた単語には限りがあり
  27. 意味も種類も分かりません
  28. しかしスペル修正のリストなら
    見られるかもしれません
  29. 従ってこれはスペル修正のデータから得られます
  30. こうしたデータを得るのはとても困難です
  31. 文章を構成する数十億もの単語を
    集めて数えるのはまだできますが
  32. スペル修正のデータを見つけるのは
  33. 修正機能を使っていない限り
    容易ではありません
  34. スペル修正機能からのデータ収集なら簡単です
  35. ブートストラッピングは難しいでしょう
  36. しかし数十億や数兆まではいきませんが
  37. 数千数万ものスペルミスの例を
    提供するサイトもいくつかあります