Italian subtitles

← 04-11 Finire il The Web Crawler

dummy description

Get Embed Code
6 Languages

Showing Revision 2 created 08/01/2014 by Fran Ontanaya.

  1. Ricordiamo il codice che avevamo alla fine della lezione 2 per attraversare il web
  2. Abbiamo usato 2 variabili. Abbiamo inizializzato "tocrawl" con la pagina seme, una lista che contiene solo la pagina seme
  3. ed useremo "tocrawl" per tenere traccia delle pagine da attraversare
  4. Abbiamo inizializzato "crawled" come lista vuota, e terremo traccia delle pagine trovate usando "crawled"
  5. Poi avevamo un ciclo che continuava fino a che rimanevano pagine da attraversare
  6. Estraevamo l'ultima pagina dalla lista "tocrawl"
  7. Se non era già stata attraversata, tramite "union" avremo aggiunto a "tocrawl" tutti i collegamenti che potevamo trovare su quella pagina
  8. poi avremmo aggiunto quella pagina alla lista di pagine già attraversate
  9. Ora vogliamo trovare un modo per modificare ciò così che, invece che cercare solo tutti gli URL
  10. costruiremo anche il nostro indice
  11. Cercheremo nell'effettivo contenuto delle pagine, e lo aggiungeremo al nostro indice
  12. Quindi il primo cambiamento da fare è l'aggiornamento dell'indice, e la modiifica del risultato da ritornare.
  13. Invece che ritornare "crawled", quello che vogliamo ritornare alla fine è l'indice
  14. "Se volessimo tenere traccia di tutti gli URL attraversati, potremmo ancora ritornare "crawled" ed "index"
  15. ma non complichiamo le cose e ritorniamo semplicemente "index"
  16. Che è quello che veramente ci serve per essere in grado di rispondere alle interrogazioni di ricerca
  17. Quindi abbiamo un altro cambiamento da fare, e questo è importante
  18. Dobbiamo trovare un modo di aggiornare l'indice in modo da riflettere tutte le parole che sono state trovate nella pagina che abbiamo appena attraversato
  19. Prima di fare questo andrò a fare una modifica
  20. Visto che "getalllinks" e quello che dobbiamo fare per aggiungere le parole all'indice dipende dalla pagina
  21. introduciamo una nuova variabile nella quale conserviamo il contenuto della pagina
  22. Questo ci risparmierà dal dover chiamare "get_page" due volte. "get_page" è molto costosa
  23. Occore una richiesta web per ottenere il contenuto della pagina
  24. E' molto più sensato conservarlo in una nuova variabilie, ed il codice risulterà semplificato.
  25. Ora dobbiamo solo passare il contenuto
  26. Quindi abbiamo una istruzione mancante
  27. e lascierò a voi cercare di scoprire l'istruzione che ci serve qui per finire il web crawler
  28. Alla fine, il risultato di "crawl_web", quello che ritorniamo come indice
  29. dovrebbe essere un indice di tutto il contenuto che abbiamo trovato a partire dalla pagina seme