Chinese, Simplified subtitles

← cs101_unit4_06_qs_Finishing-the-Web-Crawler

dummy description

Get Embed Code
6 Languages

Showing Revision 10 created 08/01/2014 by Fran Ontanaya.

  1. 先来回忆一下第二单位结尾学到的网络搜索代码
  2. 我们用了两个变量 用“tocrawl”初始化只包含种子的链表
  3. 再用“tocrawl”来跟踪需要搜索的页面
  4. 我们将“crawled”初始化为空链表
    并用“crawled”来跟踪已找到的网页
  5. 这样 只要仍有页面需要搜索 就可持续循环
  6. 我们可弹出“tocrawl”链表的最后一页
  7. 如尚未搜索 则将该页面找到的所有链接统一放入“tocrawl”中
  8. 之后 再将页面添加进搜索完毕的网页链表
  9. 现在我们要了解 如何进行改变
  10. 我们不仅是查找所有URL
    还要构建我们自己的索引
  11. 我们浏览页面的实际内容 并添加进索引
  12. 因此 第一个变动就是更新索引 并改变返回结果
  13. 所以最后 我们不是返回“crawled” 而是回到索引
  14. 如希望对所有搜索过URL进行跟踪 则仍可返回“crawled”
    并在最后返回“crawled”和“index”两个结果
  15. 但为了简单起见 这里仅仅返回index 即索引
  16. 要对搜索查询作出响应 这是切实需要的
  17. 现在要作另一个很重要的变动
  18. 我们要设法更新索引
    来映射在搜索过的页面上找到的所有词
  19. 这之前 我要先作个改动
  20. 因为“getalllinks”和我们将词添加进索引的工作都依赖网页
  21. 所以 要引入一个新变量 并将网页内容存储在于该变量
  22. 这样就不用两次调用“get_page”了 这个程序其实挺贵的
  23. 获得网页内容需要一个网络指令
  24. 将之存储在新变量中更加合理 并可简化代码工作
  25. 现在 我们只需传入内容
  26. 这里缺少一个语句
  27. 我希望大家能够找出这个语句 来完成网络搜索
  28. 完成后 “crawl-web”的结果 即返回的“index”
  29. 应当就是从种子页面找到的所有内容的索引