[Script Info] Title: [Events] Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text Dialogue: 0,0:00:00.00,0:00:02.02,Default,,0000,0000,0000,,建立搜尋引擎 (search engine) ,你有什麼收穫呢? Dialogue: 0,0:00:02.02,0:00:03.08,Default,,0000,0000,0000,,你曾建立一個,對嗎? Dialogue: 0,0:00:03.08,0:00:06.01,Default,,0000,0000,0000,,是的,如果你想要建立一個搜尋引擎 Dialogue: 0,0:00:06.01,0:00:08.01,Default,,0000,0000,0000,,我認為最重要的事 Dialogue: 0,0:00:08.01,0:00:12.05,Default,,0000,0000,0000,,是從一個非常好的語料庫 (corpus) 開始 Dialogue: 0,0:00:12.05,0:00:19.02,Default,,0000,0000,0000,,我們以前使用 WWW,它比今天的 WWW 小多了 Dialogue: 0,0:00:19.02,0:00:21.04,Default,,0000,0000,0000,,但是它仍很新奇、令人興奮的 Dialogue: 0,0:00:21.04,0:00:23.08,Default,,0000,0000,0000,,有各種出乎意料的事情 Dialogue: 0,0:00:23.08,0:00:26.10,Default,,0000,0000,0000,,因此課程前三單元的目標,是建立語料庫 Dialogue: 0,0:00:27.00,0:00:30.01,Default,,0000,0000,0000,,藉由爬行網頁來為我們的搜尋引擎建立語料庫 Dialogue: 0,0:00:30.01,0:00:32.09,Default,,0000,0000,0000,,爬行網頁是網頁蜘蛛 (web crawler) 的工作 Dialogue: 0,0:00:32.09,0:00:36.04,Default,,0000,0000,0000,,網頁蜘蛛是一個從網路收集內容的程式 Dialogue: 0,0:00:36.04,0:00:40.05,Default,,0000,0000,0000,,想像一個你在瀏覽器看到的網頁,一個這樣的網頁 Dialogue: 0,0:00:40.05,0:00:43.10,Default,,0000,0000,0000,,我們將使用 udacity 的網站做為網頁的例子 Dialogue: 0,0:00:43.10,0:00:47.10,Default,,0000,0000,0000,,它有很多內容,有一些圖像,有一些文字 Dialogue: 0,0:00:47.10,0:00:51.04,Default,,0000,0000,0000,,當您請求這個網頁時,\N所有的內容都來到你的瀏覽器 (browser) Dialogue: 0,0:00:51.04,0:00:53.07,Default,,0000,0000,0000,,重要的是,網頁含有連結 (link) Dialogue: 0,0:00:53.07,0:00:57.09,Default,,0000,0000,0000,,連結 (link) 是什麼? link 通往另一個網頁 Dialogue: 0,0:00:57.09,0:01:00.05,Default,,0000,0000,0000,,有一個通往「常見問題」的 link Dialogue: 0,0:01:00.05,0:01:02.05,Default,,0000,0000,0000,,有一個通往 CS101 網頁的 link Dialogue: 0,0:01:02.05,0:01:04.04,Default,,0000,0000,0000,,還有其他一些 link Dialogue: 0,0:01:04.04,0:01:07.05,Default,,0000,0000,0000,,link 在瀏覽器中顯示的時候,可能帶有底線 Dialogue: 0,0:01:07.05,0:01:09.09,Default,,0000,0000,0000,,也可能沒有,取決於瀏覽器的設定 Dialogue: 0,0:01:09.09,0:01:11.10,Default,,0000,0000,0000,,重要的是 Dialogue: 0,0:01:11.10,0:01:13.09,Default,,0000,0000,0000,,link 是通往其他網頁的指引 Dialogue: 0,0:01:13.09,0:01:16.04,Default,,0000,0000,0000,,而其他網頁也可能含有 link Dialogue: 0,0:01:16.04,0:01:19.07,Default,,0000,0000,0000,,這個網頁上有另一個 link Dialogue: 0,0:01:19.07,0:01:23.05,Default,,0000,0000,0000,,也許它通往我的名字,你可以跟隨它通往我的首頁 (homepage) Dialogue: 0,0:01:23.05,0:01:26.09,Default,,0000,0000,0000,,網頁蜘蛛能找到的所有網頁 Dialogue: 0,0:01:26.09,0:01:29.01,Default,,0000,0000,0000,,都是跟隨 link 而找到的 Dialogue: 0,0:01:29.01,0:01:31.07,Default,,0000,0000,0000,,沒有必要找出網路中的每個網頁 Dialogue: 0,0:01:31.07,0:01:33.06,Default,,0000,0000,0000,,如果我們從一個好的種子網頁 (seed page) 開始 Dialogue: 0,0:01:33.06,0:01:35.00,Default,,0000,0000,0000,,就可以找到很多網頁 Dialogue: 0,0:01:35.00,0:01:37.05,Default,,0000,0000,0000,,網頁蜘蛛要做的,就是從一個網頁開始 Dialogue: 0,0:01:37.05,0:01:41.06,Default,,0000,0000,0000,,找出網頁中所有的 link,跟隨它們,找到其他的網頁 Dialogue: 0,0:01:41.06,0:01:45.01,Default,,0000,0000,0000,,然後在這些網頁裡,繼續跟隨網頁中的 link Dialogue: 0,0:01:45.01,0:01:48.03,Default,,0000,0000,0000,,以找到其他網頁,那些網頁中有更多的 link Dialogue: 0,0:01:48.03,0:01:51.04,Default,,0000,0000,0000,,最後,我們收集到網路中很多的網頁 Dialogue: 0,0:01:51.04,0:01:54.01,Default,,0000,0000,0000,,這就是我們要網頁蜘蛛做的事 Dialogue: 0,0:01:54.01,0:01:56.10,Default,,0000,0000,0000,,我們希望找到方法,從一個 seed page 開始 Dialogue: 0,0:01:56.10,0:01:59.06,Default,,0000,0000,0000,,擷取網頁上的 link Dialogue: 0,0:01:59.06,0:02:01.08,Default,,0000,0000,0000,,跟隨這些 link 找到其他的網頁 Dialogue: 0,0:02:01.08,0:02:03.07,Default,,0000,0000,0000,,然後收集那些網頁中的 link Dialogue: 0,0:02:03.07,0:02:05.02,Default,,0000,0000,0000,,跟隨它們,收集所有的 link Dialogue: 0,0:02:05.02,0:02:07.04,Default,,0000,0000,0000,,好像有很多事要做 Dialogue: 0,0:02:07.04,0:02:09.01,Default,,0000,0000,0000,,第一節課不會完成所有的事情 Dialogue: 0,0:02:09.01,0:02:12.07,Default,,0000,0000,0000,,第一單元要做的,只是擷取一個 link Dialogue: 0,0:02:12.07,0:02:14.06,Default,,0000,0000,0000,,我們將從一堆文字開始 Dialogue: 0,0:02:14.06,0:02:17.03,Default,,0000,0000,0000,,其中帶有 URL 的 link Dialogue: 0,0:02:17.03,0:02:19.06,Default,,0000,0000,0000,,我們要找出那個 URL Dialogue: 0,0:02:19.06,0:02:21.09,Default,,0000,0000,0000,,這樣才能請求下一個網頁 Dialogue: 0,0:02:21.09,0:02:23.08,Default,,0000,0000,0000,,第二單元的目標是 Dialogue: 0,0:02:23.08,0:02:25.02,Default,,0000,0000,0000,,能夠持續地做下去 Dialogue: 0,0:02:25.02,0:02:28.05,Default,,0000,0000,0000,,如果網頁中有很多 link,你要把它們全找出來 Dialogue: 0,0:02:28.05,0:02:30.01,Default,,0000,0000,0000,,第二單元要做的 Dialogue: 0,0:02:30.01,0:02:32.07,Default,,0000,0000,0000,,是要弄清楚如何持續的擷取所有的 link Dialogue: 0,0:02:32.07,0:02:36.06,Default,,0000,0000,0000,,第三單元,嗯,我們將超越一個網頁 Dialogue: 0,0:02:36.06,0:02:40.03,Default,,0000,0000,0000,,第二單元結束時,我們能夠印出一個網頁中的所有 link Dialogue: 0,0:02:40.03,0:02:44.00,Default,,0000,0000,0000,,第三單元我們要收集所有的 link,才可以持續下去 Dialogue: 0,0:02:44.00,0:02:47.02,Default,,0000,0000,0000,,直到網頁蜘蛛收集了很多、很多的網頁 Dialogue: 0,0:02:47.02,0:02:50.01,Default,,0000,0000,0000,,第三單元結束時,我們將建立一個網頁蜘蛛 Dialogue: 0,0:02:50.01,0:02:52.03,Default,,0000,0000,0000,,我們有一個建立語料庫的方法 Dialogue: 0,0:02:52.03,0:02:57.08,Default,,0000,0000,0000,,剩下三個單元重點在於,如何回應查詢 (queries) Dialogue: 0,0:02:57.08,0:03:01.03,Default,,0000,0000,0000,,第四單元我們將探討,如何給出好的回應 Dialogue: 0,0:03:01.03,0:03:08.02,Default,,0000,0000,0000,,當搜索一個關鍵字 (keyword) 時,\N我們要給出一個網頁列表 (list) 當作回應 Dialogue: 0,0:03:08.02,0:03:10.06,Default,,0000,0000,0000,,列表中的網頁都出現了關鍵字 Dialogue: 0,0:03:10.06,0:03:15.09,Default,,0000,0000,0000,,第五單元我們將思考,\N如果有一個很大的語料庫,如何擴展規模 Dialogue: 0,0:03:15.09,0:03:19.08,Default,,0000,0000,0000,,第六單元要做的,不只是找出一個網頁列表 Dialogue: 0,0:03:19.08,0:03:21.07,Default,,0000,0000,0000,,而是要找出最佳的網頁 Dialogue: 0,0:03:21.07,0:03:24.08,Default,,0000,0000,0000,,我們將探討,如何為含有關鍵字的網頁來評分 Dialogue: 0,0:03:24.08,0:03:27.07,Default,,0000,0000,0000,,我們已經講得有點遠了 Dialogue: 0,0:03:27.07,0:03:30.04,Default,,0000,0000,0000,,因為第一單元要做的只是 Dialogue: 0,0:03:30.04,0:03:32.06,Default,,0000,0000,0000,,思考如何從網頁中擷取一個 link Dialogue: 0,0:03:32.06,0:03:35.07,Default,,0000,0000,0000,,課程結束時,我們所建立的搜尋引擎 Dialogue: 0,0:03:35.07,0:03:37.03,Default,,0000,0000,0000,,將是一個功能完整的搜尋引擎 Dialogue: 0,0:03:37.03,0:03:40.06,Default,,0000,0000,0000,,它將擁有像 Google 這種搜尋引擎所具備的主要元件 Dialogue: 0,0:03:40.06,0:03:43.01,Default,,0000,0000,0000,,它當然不會像 Google 那麼強大 Dialogue: 0,0:03:43.01,0:03:44.03,Default,,0000,0000,0000,,我們想要簡單一點 Dialogue: 0,0:03:44.03,0:03:46.06,Default,,0000,0000,0000,,我們只要寫少量的程式 Dialogue: 0,0:03:46.06,0:03:48.01,Default,,0000,0000,0000,,要記住我們的目標 Dialogue: 0,0:03:48.01,0:03:50.02,Default,,0000,0000,0000,,重點不是建立一個搜尋引擎 Dialogue: 0,0:03:50.02,0:03:52.08,Default,,0000,0000,0000,,而是將建立搜尋引擎當作一個手段 Dialogue: 0,0:03:52.08,0:03:55.02,Default,,0000,0000,0000,,來學習電腦科學 Dialogue: 0,0:03:55.02,0:03:56.08,Default,,0000,0000,0000,,以及學習程式設計 Dialogue: 0,0:03:56.08,0:03:58.02,Default,,0000,0000,0000,,透過這樣的學習 Dialogue: 0,0:03:58.02,9:59:59.99,Default,,0000,0000,0000,,將讓我們有能力解決很多、很多其他的問題