WEBVTT

99:59:59.999 --> 99:59:59.999
[David Evans]所以课程前三单元的目标就是创建语料库

99:59:59.999 --> 99:59:59.999
[Sebastian Thrun]你对创建搜索引擎有什么体会呢

99:59:59.999 --> 99:59:59.999
[Sergey Brin - Google公司创建者]是的。如果你想创建一个搜索引擎

99:59:59.999 --> 99:59:59.999
不是创建一个搜索引擎

99:59:59.999 --> 99:59:59.999
也可能没有，这取决于浏览器的设置

99:59:59.999 --> 99:59:59.999
从一个好的种子网页开始

99:59:59.999 --> 99:59:59.999
从一个种子网页开始

99:59:59.999 --> 99:59:59.999
从创建搜索引擎中学到的知识

99:59:59.999 --> 99:59:59.999
从网页中取出一个链接

99:59:59.999 --> 99:59:59.999
以找到其他网页。那些网页中有更多链接

99:59:59.999 --> 99:59:59.999
但那时候的万维网也比今天的要新鲜和令人兴奋

99:59:59.999 --> 99:59:59.999
作为推动学习计算机科学

99:59:59.999 --> 99:59:59.999
你曾经创建过一个搜索引擎，是吗？

99:59:59.999 --> 99:59:59.999
其中有各种出乎意料的事情

99:59:59.999 --> 99:59:59.999
其中有很多内容，有一些图像，有一些文本

99:59:59.999 --> 99:59:59.999
列表中的每个网页都含有需要查询的关键字

99:59:59.999 --> 99:59:59.999
剩下的三个单元中我们将看看如何响应查询

99:59:59.999 --> 99:59:59.999
取出其中的链接

99:59:59.999 --> 99:59:59.999
和推动学习编程的车轮

99:59:59.999 --> 99:59:59.999
因为第一单元要做的只是

99:59:59.999 --> 99:59:59.999
好像有很多事情要做

99:59:59.999 --> 99:59:59.999
如果网页中有很多链接，则需要找出所有链接

99:59:59.999 --> 99:59:59.999
它将拥有像Google那样的搜索引擎所拥有的主要部件

99:59:59.999 --> 99:59:59.999
将是功能完整的搜索引擎

99:59:59.999 --> 99:59:59.999
将让我们能够解决很多其他问题

99:59:59.999 --> 99:59:59.999
就可以找到很多网页

99:59:59.999 --> 99:59:59.999
就有一种创建语料库的途径了

99:59:59.999 --> 99:59:59.999
已经扯得太远了

99:59:59.999 --> 99:59:59.999
当然它不会像Google那样强大

99:59:59.999 --> 99:59:59.999
我们从一串文本开始

99:59:59.999 --> 99:59:59.999
我们使用udacity网站作为网页的例子

99:59:59.999 --> 99:59:59.999
我们只想写少量代码

99:59:59.999 --> 99:59:59.999
我们想要更简单一些

99:59:59.999 --> 99:59:59.999
我们要找出最好的一个网页

99:59:59.999 --> 99:59:59.999
我们要找出那个URL

99:59:59.999 --> 99:59:59.999
我们要看看如何为含有关键字的网页评分

99:59:59.999 --> 99:59:59.999
我们那时候使用万维网，那时候的万维网比今天的要小得多

99:59:59.999 --> 99:59:59.999
我认为最重要的是

99:59:59.999 --> 99:59:59.999
找出其中的所有链接，跟踪它们以找到其他网页

99:59:59.999 --> 99:59:59.999
抓取网页是网页爬虫的工作

99:59:59.999 --> 99:59:59.999
搜索一个关键字的时候，需要一个网页列表作为响应

99:59:59.999 --> 99:59:59.999
收集那些网页中的链接

99:59:59.999 --> 99:59:59.999
文本中有带URL的链接

99:59:59.999 --> 99:59:59.999
最终我们会有网络中很多网页的集合

99:59:59.999 --> 99:59:59.999
有一个到CS101页面的链接

99:59:59.999 --> 99:59:59.999
没有必要找出网络中的每个网页

99:59:59.999 --> 99:59:59.999
然后继续跟踪其他网页中的链接

99:59:59.999 --> 99:59:59.999
爬虫要做的就是从一个网页开始

99:59:59.999 --> 99:59:59.999
直到网页爬虫收集了很多、很多网页

99:59:59.999 --> 99:59:59.999
第一单元要做的仅仅只是取出一个链接

99:59:59.999 --> 99:59:59.999
第一次上课不会完成所有事情

99:59:59.999 --> 99:59:59.999
第三单元将收集所有链接，这样就可以继续抓取

99:59:59.999 --> 99:59:59.999
第三单元将超越一个网页

99:59:59.999 --> 99:59:59.999
第三单元结束的时候，我们就已经创建了一个网页爬虫

99:59:59.999 --> 99:59:59.999
第二单元的目标是

99:59:59.999 --> 99:59:59.999
第二单元结束的时候我们就可以打印一个网页中的所有链接了

99:59:59.999 --> 99:59:59.999
第二单元要做的就是

99:59:59.999 --> 99:59:59.999
第五单元我们将讨论如何在大语料库的情况下扩展这种方法

99:59:59.999 --> 99:59:59.999
第六单元要做的不仅仅是找出一个网页列表

99:59:59.999 --> 99:59:59.999
第四单元中，我们将计算如何给出好的响应

99:59:59.999 --> 99:59:59.999
继续查找

99:59:59.999 --> 99:59:59.999
网页爬虫是从网页中提取内容的程序

99:59:59.999 --> 99:59:59.999
网页爬虫能够找到的网页

99:59:59.999 --> 99:59:59.999
网页爬虫要做的就是

99:59:59.999 --> 99:59:59.999
考虑一个在浏览器中看到的，这样的网页

99:59:59.999 --> 99:59:59.999
而其他网页也可能含有链接

99:59:59.999 --> 99:59:59.999
而是将创建搜索引擎

99:59:59.999 --> 99:59:59.999
要从一个很好的语料库开始

99:59:59.999 --> 99:59:59.999
要记住的是，我们的真正目标

99:59:59.999 --> 99:59:59.999
要通过抓取网页来为我们的搜索引擎创建语料库

99:59:59.999 --> 99:59:59.999
解决如何继续处理，取出所有链接的问题

99:59:59.999 --> 99:59:59.999
请求网页的时候，这些内容都会到达浏览器

99:59:59.999 --> 99:59:59.999
课程结束时候我们创建的搜索引擎

99:59:59.999 --> 99:59:59.999
跟踪它们，收集所有链接

99:59:59.999 --> 99:59:59.999
跟踪这些链接到达其他网页

99:59:59.999 --> 99:59:59.999
还有其他一些链接

99:59:59.999 --> 99:59:59.999
这个网页上有另一个链接

99:59:59.999 --> 99:59:59.999
这个链接可能是我的名字，指向我的主页

99:59:59.999 --> 99:59:59.999
这样才能请求下一个网页

99:59:59.999 --> 99:59:59.999
这里有一个到常见问题的链接

99:59:59.999 --> 99:59:59.999
都是通过跟踪链接得到的

99:59:59.999 --> 99:59:59.999
重要的是

99:59:59.999 --> 99:59:59.999
重要的是：网页含有链接

99:59:59.999 --> 99:59:59.999
链接在浏览器中显示的时候带有下划线

99:59:59.999 --> 99:59:59.999
链接指向其他网页

99:59:59.999 --> 99:59:59.999
链接是指向其他网页的指针