Japanese subtitles

← 11-59 Finishing The Web Crawler

11-59 Finishing The Web Crawler

Get Embed Code
2 Languages

Showing Revision 2 created 07/22/2014 by osawakjvta.

  1. Webクローラが完成しつつあります
  2. Webクローラで行いたいことを忘れないでください
  3. まず始めるシードページを
    いくつか把握していると仮定します
  4. シードページにはリンクがいくつかあります
  5. これらのリンクを見つける必要があります
  6. もうやり方は分かっていますね
  7. リンクをリストにしそのリンクをたどります
  8. 新しいページへリンクをたどります
    この新しいページにもリンクがあるかもしれません
  9. そのリンクもたどる必要があります
  10. そのために2つのことを考えなければなりません
  11. クロールするすべてのページを
    追跡する必要があります
  12. そのためにtocrawlを挿入します
  13. tocrawlはクロールする
    残りのページのリストになります
  14. ですから最初は単なるシードページです
  15. シードページからリンクを集めると
  16. これらのリンクも含むようになります
  17. クロールを終えると
    tocrawlに保持しておく必要はありません
  18. クロールする新たなページを見つけたら
    リストtocrawlに追加されます
  19. 他に必要な変数は
    クロールを行ったすべてのページを把握するものです
  20. これがクロール終了の結果です
  21. 見つけたすべてのページは
    crawledと呼ぶリストに保存されます
  22. これがどう機能するのか
    サンプルサイトで例を1つずつ見ていきましょう
  23. シードページを作成します
    www.udacity.com/cs101x/index.htmlです
  24. このページです つまりクロールを開始した時
  25. tocrawlをこのインデックスページにする必要が
    あるということです
  26. すべてのURLを書き出すのはやめて
    最後の部分だけを書き出します
  27. なぜならクロールするすべてのページは
    テストサイトだからです
  28. ですからtocrawlは1つの要素のみを含むリストです
    index.htmlページです
  29. 始めたばかりで何もクロールしていません
    crawledは空のリストとして始めます
  30. 次に行うのはこのページのクロールです
  31. このページのすべてのリンクを取得します
    インデックスページをクロールしたということです
  32. つまりそれがcrawledに追加されます
  33. インデックスページ上のリンクに
    新たなリンクが3つあります
  34. ここにリンクがあります
    これはcrawling.htmlに移動します
  35. ここにもリンクを見つけました
    walking.htmlに移動します
  36. さらにここです これはflying.htmlに移動します
  37. このページをクロールしたあとのtocrawlの値には
  38. これらの3つのリンクが含まれます
  39. 次に必要なのはリンクの1つを使って
    クロールすることです
  40. よいクロールを行うには順序が問題になります
  41. 今は最後のリンクから始めるとして
    リンクflyをクロールします
  42. flying pageにリンクされています
    これがそのページです
  43. ページflying.htmlをクロールします
    このページにはリンクが含まれていません
  44. 魔法の言葉がなぜ“気難しいヒゲワシ”なのか
  45. 分からない人はDuckDuckGoやGoogleで
    検索してみてください
  46. これでflyingのクロールは終了です
    リストcrawledに追加されます
  47. すでにindex.htmlがありますが
    それを失うことはありません
  48. 新たにflyingをリストに追加します
  49. クロール終了後再びクロールする必要はないので
    tocrawlから削除しましょう
  50. flyingのクロール終了後
    まだ2つのリンクがtocrawlに残っています
  51. 別のリンクを試してみましょう
    crawling.htmlのリンクをたどるとします
  52. このページに達したら
    このページのクロールをたどるために
  53. flyingの時と同じアルゴリズムに従います
  54. このリンクをtocrawlから削除し
    crawledに追加します
  55. クロールが終わりました
  56. このページで見つかるすべてのリンクを
    tocrawlに加えます
  57. リンクkickingを見つけました
    kicking.htmlに移動するものです
  58. これをクロールするページのリストに追加します
  59. さらに続けます
  60. kickingをたどります
    kickingにはリンクが含まれていません
  61. ですからkickingをcrawledに追加し
    tocrawlから削除します
  62. そしてクロールするページがなくなるまで続けます
  63. もう少しきちんとプロセスを記述させてください
    その後問題を出します