[Sebastian Thrun]Vì thế những gì anh đảm nhiệm là làm thế nào xây dựng một công cụ tìm kiếm.
Anh xây dựng một công cụ tìm kiếm trước đây đúng không ?
[Sergey Brin - Đồng sáng lập hãng Google] . Vâng , tôi nghĩ điều quan trọng
nếu bạn xây dựng một công cụ tìm kiếm
là có một kho ngữ liệu bắt đầu ở ngoài
Trong trường hợp của chúng tôi thời gian đó sử dụng world wide web lúc đó chắc chắn quy mô nó nhỏ hơn hôm nay
nhưng cũng rất mới và thú vị.
Có tất cả những sự xắp xếp không mong đợi ở đó.
[David Evans] Vì thế mục tiêu của 3 unit đầu tiên là làm kho ngữ liệu đó.
Và chúng ta muốn xây dựng kho ngữ liệu cho công cụ tìm kiếm của chúng ta
bằng cách thu thập cac trang web, chúng ta gọi là web thu thập
thu thập web là gì ?nó là chương trình thu thập nội dung từ web
Nếu bạn nghĩ đến một trang web trong trình duyệt, bạn có một trang giống thế này
và chúng ta sử dụng Udacity như một trang ví dụ.
nó có nhiều nội dung , có một số ảnh ,có một số văn bản
Tất cả những thứ này đến trình duyệt của bạn khi bạn yêu cầu trang web.
Điều quan trọng là nó có những cái links.
Một link là gì ? là cái gì mà nó đi đến một trang khác
vì thế chúng ta có một link những câu hỏi thường xuyên
Chúng ta có một link đến trang CS 101.
Có một số link khác trong trang này.
Và link đó xuất hiện trong trình duyệt của bạn với lằn gạch dưới.
nếu không có thì tùy thuộc trình duyệt của bạn bố trí.
Nhưng điều quan trọng nó là
một điểm chỉ đến một trang web khác
và những trang web đó có thể cũng có những đường link
Vì thế chúng ta có link khác trong trang này
có thể nó là tên của của tôi. Bạn có thể theo trang nhà của tôi
Và tất cả những trang web chúng ta có thể tìm thấy với web thu thập của chúng ta.
Được tìm thấy nhờ những link theo sau nó.
Vì thế thật không cần thiết để tìm kiếm mỗi trang trên web.
Nếu chúng ta bắt đầu với một trang ban đầu tốt
Qua đó ta có thể tìm thấy nhiều trang.
và những gì webcrawler làm là bắt đầu với một trang
tìm ra tất cả những link trên trang đó, theo sau chúng để tìm ra những trang khác.
Và sau đó trên những trang khác đó, nó sẽ theo sau những link trên trang đó
để tìm ra những trang khác nữa, và sẽ có nhiều link hơn trên những trang đó
và cuối cùng chúng ta có một bộ sưu tập nhiều trang trên web.
Vì thế đó là những gì chúng ta cần làm để xây dựng webcrawler
Chúng ta muốn tìm một số cách để bắt đầu từ một trang ban đầu
Rút ra tất cả những link trên trang đó
Theo sau những link đó đến những trang khác.
Sau đó thu thập những link trên những trang khác đó.
Theo sau chúng thu thập tất cả cái đó.
Vì thế nghe có vẻ nhiều việc để làm,
chúng ta sẽ không làm tất cả những cái đó.
Những gì chúng ta cần làm trong unit đầu này là rút ra một link.
Vì thế chúng sẽ bắt đầu với một cụm văn bản
Nó sẽ có một link trong nó với một Url.
Nhữn gì chúng ta muốn làm là tìm ra Url đó.
Vì thế chúng ta có thể yêu cầu trang kế tiếp.
Mục tiêu của unit 2 là tiếp tục.
là tiếp tục
Nếu có nhiều link trên một trang , chúng ta muốn có thể tìm ra tất cả chúng
và đó là những gì chúng ta làm trong unit 2.
Là chỉ ra cách rút ra tất cả các link đó
Trong unit 3 chúng ta sẽ đi vượt xa hơn chỉ một trang,
vì thế đến cuối unit 2 chúng ta có thể in ra tất cả đường link trong một trang.
Cho unit 3 chúng ta muốn thu thập tất cả những link vì thế có thể giữ tiếp tuc
theo sau đến cuối cùng web thu thập của chúng ta thu thập được nhiều, nhiều trang.
Vì thế đến cuối unit 3 chúng ta xây dựng được web thu thập
Chúng ta sẽ có một cách xây dựng kho ngữ liệu
3 unit còn lại sẽ nhìn ra cách phản hồi những câu hỏi yêu cầu.
vì thế unit 4 sẽ chỉ ra cách cho một phản hồi tốt.
Nếu chúng ta tìm kiếm một từ khóa. Chúng ta muốn trả ra một danh sách trang web
mà ở đó từ khóa xuất hiện.
và chúng ta sẽ chỉ ra trong unit 5 1 cách để làm điều đó, điều đó nặng cân, nếu chúng ta có một kho ngữ liệu lớn
Trong unit 6 những gì chúng ta làm là ,không chỉ muốn tìm ra một list
mà là tìm ra một trang tốt nhất.
vì thế chúng ta sẽ tính ra xếp hạng tất cả các trang mà ở đó từ khóa xuất hiện.
Chúng ta có một cái trước mắt bây giờ
sẽ làm cho unit 1
là chỉ ra cách rút trích link từ trang web.
Và công cụ tìm kiếm chúng ta xây dựng cuối unit này
là một chức năng của công cụ tìm kiếm
Chúng ta sẽ có những thành phần chính mà một công cụ tìm kiếm giống như Google có.
Chắc chắn không có đủ quyền năng như Google
Chúng ta muốn giữ những điều đơn giản
.Chúng ta muốn có một số lượng mã nhỏ để viết.
và chúng ta nên nhớ mục đích thật sự của chúng ta
không nhiều như xây dựng công cụ tìm kiếm.
nhưng sử dụng xây dựng công cụ tìm kiếm như một phương tiện
để học về khoa học máy tính.
Và học về lập trình
những điều chúng ta học bằng cách làm cái này
sẽ cho phép chúng ta giải quyết nhiều, thật nhiều những vấn đề khác.