German subtitles

← cs101_unit4_06_qs_Finishing-the-Web-Crawler

dummy description

Get Embed Code
6 Languages

Showing Revision 2 created 08/01/2014 by Fran Ontanaya.

  1. Am Ende von Unit 2 hatten wir also den folgenden Code.
  2. Wir hatten 2 Variable. "Tocrawl" initialisierten wir mit "seed" - einer Liste nur mit "seed" -
  3. und wir nehmen "tocrawl", um die noch nicht gecrawlten Seiten zu speichern.
  4. "crawled" initialisierten wir mit einer leeren Liste und wir speichern die gefunden Seiten unter "crawled".
  5. Dann hatten wir einen Loop, der so lange ausgeführt wird, bis wir keine Seiten zum Crawlen mehr haben.
  6. Wir entfernen mit pop die letzte Seite von der "tocrawl"-Liste.
  7. Wenn sie noch nicht gecrawlt worden ist, führen wir "union" aus, so dass sich alle Links der Seite unter "tocrawl" befinden,
  8. und dann fügen wir diese Seite zu den Seiten, die bereits gecrawlt wurden, hinzu.
  9. Nun wollen wir dies anders machen. Anstatt nur alle URL´s zu finden,
  10. wollen wir unseren Index aufbauen.
  11. Wir schauen auf den Inhalt der Seite und wir fügen ihn unserem Index hinzu.
  12. Als erste Änderung aktualisieren wir den Index und ändern "return result".
  13. So bekommen wir am Ende nicht "crawled", sondern Index.
  14. Wenn wir alle gecrawlten URL´s verfolgen wollten, könnten wir "crawled" beibehalten und sowohl "crawled" als auch "index" mit return auslösen,
  15. aber wir wollen es einfacher machen und lösen nur return"index" aus.
  16. Das ist unser eigentliches Ziel, um Suchanfragen zu beantworten.
  17. Jetzt müssen wir eine weitere wichtige Veränderung vornehmen.
  18. Wir müssen den Index aktualisieren, so dass alle Wörter der gecrawlten Seite dort gelistet sind.
  19. Zuvor mache ich eine weitere Änderung.
  20. Da "getalllinks" und alles, womit wir Index aktualisieren müssen, von der Seite abhängt,
  21. wollen wir eine neue Variable einführen und den Seiteninhalt in dieser Variablen speichern.
  22. So müssen wir "get_page" nicht zweimal aufrufen. "Get_page" ist sehr kostspielig.
  23. Wir müssen eine Webseite aufrufen, um den Seiteninhalt zu erhalten.
  24. Es ist viel sinnvoller, diesen in einer neuen Variablen zu speichern. So wird der Code einfacher.
  25. Jetzt müssen wir nur noch "content" einfügen.
  26. Jetzt fehlt nur noch eine Programmzeile.
  27. Findet bitte heraus, wie wir die Programmzeile definieren, um den Web Crawler fertig zu stellen.
  28. Danach sollte das Ergebnis von "crawl-web" ( nach return "index")
  29. einen Index mit dem Gesamtinhalt ab "seed" umfassen.