-
Title:
04-11 Finire il The Web Crawler
-
Description:
-
Ricordiamo il codice che avevamo alla fine della lezione 2 per attraversare il web
-
Abbiamo usato 2 variabili. Abbiamo inizializzato "tocrawl" con la pagina seme, una lista che contiene solo la pagina seme
-
ed useremo "tocrawl" per tenere traccia delle pagine da attraversare
-
Abbiamo inizializzato "crawled" come lista vuota, e terremo traccia delle pagine trovate usando "crawled"
-
Poi avevamo un ciclo che continuava fino a che rimanevano pagine da attraversare
-
Estraevamo l'ultima pagina dalla lista "tocrawl"
-
Se non era già stata attraversata, tramite "union" avremo aggiunto a "tocrawl" tutti i collegamenti che potevamo trovare su quella pagina
-
poi avremmo aggiunto quella pagina alla lista di pagine già attraversate
-
Ora vogliamo trovare un modo per modificare ciò così che, invece che cercare solo tutti gli URL
-
costruiremo anche il nostro indice
-
Cercheremo nell'effettivo contenuto delle pagine, e lo aggiungeremo al nostro indice
-
Quindi il primo cambiamento da fare è l'aggiornamento dell'indice, e la modiifica del risultato da ritornare.
-
Invece che ritornare "crawled", quello che vogliamo ritornare alla fine è l'indice
-
"Se volessimo tenere traccia di tutti gli URL attraversati, potremmo ancora ritornare "crawled" ed "index"
-
ma non complichiamo le cose e ritorniamo semplicemente "index"
-
Che è quello che veramente ci serve per essere in grado di rispondere alle interrogazioni di ricerca
-
Quindi abbiamo un altro cambiamento da fare, e questo è importante
-
Dobbiamo trovare un modo di aggiornare l'indice in modo da riflettere tutte le parole che sono state trovate nella pagina che abbiamo appena attraversato
-
Prima di fare questo andrò a fare una modifica
-
Visto che "getalllinks" e quello che dobbiamo fare per aggiungere le parole all'indice dipende dalla pagina
-
introduciamo una nuova variabile nella quale conserviamo il contenuto della pagina
-
Questo ci risparmierà dal dover chiamare "get_page" due volte. "get_page" è molto costosa
-
Occore una richiesta web per ottenere il contenuto della pagina
-
E' molto più sensato conservarlo in una nuova variabilie, ed il codice risulterà semplificato.
-
Ora dobbiamo solo passare il contenuto
-
Quindi abbiamo una istruzione mancante
-
e lascierò a voi cercare di scoprire l'istruzione che ci serve qui per finire il web crawler
-
Alla fine, il risultato di "crawl_web", quello che ritorniamo come indice
-
dovrebbe essere un indice di tutto il contenuto che abbiamo trovato a partire dalla pagina seme