Japanese subtitles

← 15-11 Finishing The Web Crawler

15-11 Finishing The Web Crawler

Get Embed Code
6 Languages

Showing Revision 1 created 07/21/2014 by osawakjvta.

  1. レッスン2の終わりで使用した
    Webをクロールするためのコードを思い出しましょう
  2. 2つの変数を使用しました tocrawlにシードだけを
    含んでいるリストを設定しました
  3. クロールするページを追跡するために
    tocrawlを使用します
  4. crawledに空のリストを設定しました
    crawledを使用して見つけたページを追跡します
  5. その後クロールするページが残っている場合に限り
    ループを継続します
  6. リストtocrawlから最後のページを取り出します
  7. まだクロールしていなければ
    そのページで見つける全リンクをtocrawlに統合します
  8. そしてそのページを
    すでにクロールしてあるページのリストに追加します
  9. ではすべてのURLを見つけるだけでなく
    変更をする方法を見ていきましょう
  10. インデックスを作成するためです
  11. ページの実際のコンテンツを見ます
    それをインデックスに追加します
  12. まず1つ目の変更としてindexを更新します
    returnの結果を変更します
  13. 最後に返す必要のあるcrawledは返しません
  14. クロールしたすべてのURLを追跡する必要があるなら
    crawledを返すことができます
  15. しかし簡単にするために
    indexをただ返すだけにします
  16. これがクエリの検索に応えるために
    本当に必要なことです
  17. これで1つの変更が完了しました
    これは重要な変更の1つです
  18. クロールして見つけた単語をすべて反映するために
    indexの更新方法を知る必要があります
  19. その前に1つ変更を加えます
  20. get_all_linkと単語をindexに加える方法は
    そのページによって変わってきます
  21. 新しい変数を挿入し
    その変数にページのコンテンツを保存します
  22. get_pageを2度呼び出す必要がなくなります
    get_pageはとてもコストが高いものです
  23. ページのコンテンツを取得するために
    Webリクエストが必要になります
  24. 新しい変数にそれを保存した方が
    このコードを単純化できとても理にかなっています
  25. これでcontentを渡すだけになりました
  26. まだ文が1つ足りません
  27. Webクローラを完成させるために必要な文を
    皆さんが解明できるか確かめる問題を出します
  28. 終了した時インデックスとして返す
    crawl_webの結果は
  29. シードから開始して見つけたコンテンツのすべての
    インデックスである必要があります