1 00:00:00,000 --> 00:00:02,018 [Sebastian Thrun]Vì thế những gì anh đảm nhiệm là làm thế nào xây dựng một công cụ tìm kiếm. 2 00:00:02,018 --> 00:00:03,077 Anh xây dựng một công cụ tìm kiếm trước đây đúng không ? 3 00:00:03,077 --> 00:00:06,008 [Sergey Brin - Đồng sáng lập hãng Google] . Vâng , tôi nghĩ điều quan trọng 4 00:00:06,008 --> 00:00:08,013 nếu bạn xây dựng một công cụ tìm kiếm 5 00:00:08,013 --> 00:00:12,051 là có một kho ngữ liệu bắt đầu ở ngoài 6 00:00:12,051 --> 00:00:19,020 Trong trường hợp của chúng tôi thời gian đó sử dụng world wide web lúc đó chắc chắn quy mô nó nhỏ hơn hôm nay 7 00:00:19,020 --> 00:00:21,036 nhưng cũng rất mới và thú vị. 8 00:00:21,036 --> 00:00:23,081 Có tất cả những sự xắp xếp không mong đợi ở đó. 9 00:00:23,081 --> 00:00:26,099 [David Evans] Vì thế mục tiêu của 3 unit đầu tiên là làm kho ngữ liệu đó. 10 00:00:27,003 --> 00:00:30,009 Và chúng ta muốn xây dựng kho ngữ liệu cho công cụ tìm kiếm của chúng ta 11 00:00:30,009 --> 00:00:32,090 bằng cách thu thập cac trang web, chúng ta gọi là web thu thập 12 00:00:32,090 --> 00:00:36,038 thu thập web là gì ?nó là chương trình thu thập nội dung từ web 13 00:00:36,038 --> 00:00:40,054 Nếu bạn nghĩ đến một trang web trong trình duyệt, bạn có một trang giống thế này 14 00:00:40,054 --> 00:00:43,099 và chúng ta sử dụng Udacity như một trang ví dụ. 15 00:00:43,099 --> 00:00:47,097 nó có nhiều nội dung , có một số ảnh ,có một số văn bản 16 00:00:47,097 --> 00:00:51,038 Tất cả những thứ này đến trình duyệt của bạn khi bạn yêu cầu trang web. 17 00:00:51,038 --> 00:00:53,066 Điều quan trọng là nó có những cái links. 18 00:00:53,066 --> 00:00:57,093 Một link là gì ? là cái gì mà nó đi đến một trang khác 19 00:00:57,093 --> 00:01:00,050 vì thế chúng ta có một link những câu hỏi thường xuyên 20 00:01:00,050 --> 00:01:02,046 Chúng ta có một link đến trang CS 101. 21 00:01:02,046 --> 00:01:04,043 Có một số link khác trong trang này. 22 00:01:04,043 --> 00:01:07,054 Và link đó xuất hiện trong trình duyệt của bạn với lằn gạch dưới. 23 00:01:07,054 --> 00:01:09,094 nếu không có thì tùy thuộc trình duyệt của bạn bố trí. 24 00:01:09,094 --> 00:01:11,095 Nhưng điều quan trọng nó là 25 00:01:11,095 --> 00:01:13,088 một điểm chỉ đến một trang web khác 26 00:01:13,088 --> 00:01:16,043 và những trang web đó có thể cũng có những đường link 27 00:01:16,043 --> 00:01:19,073 Vì thế chúng ta có link khác trong trang này 28 00:01:19,073 --> 00:01:23,052 có thể nó là tên của của tôi. Bạn có thể theo trang nhà của tôi 29 00:01:23,052 --> 00:01:26,091 Và tất cả những trang web chúng ta có thể tìm thấy với web thu thập của chúng ta. 30 00:01:26,091 --> 00:01:29,009 Được tìm thấy nhờ những link theo sau nó. 31 00:01:29,009 --> 00:01:31,067 Vì thế thật không cần thiết để tìm kiếm mỗi trang trên web. 32 00:01:31,067 --> 00:01:33,059 Nếu chúng ta bắt đầu với một trang ban đầu tốt 33 00:01:33,059 --> 00:01:35,003 Qua đó ta có thể tìm thấy nhiều trang. 34 00:01:35,003 --> 00:01:37,050 và những gì webcrawler làm là bắt đầu với một trang 35 00:01:37,050 --> 00:01:41,056 tìm ra tất cả những link trên trang đó, theo sau chúng để tìm ra những trang khác. 36 00:01:41,056 --> 00:01:45,013 Và sau đó trên những trang khác đó, nó sẽ theo sau những link trên trang đó 37 00:01:45,013 --> 00:01:48,031 để tìm ra những trang khác nữa, và sẽ có nhiều link hơn trên những trang đó 38 00:01:48,031 --> 00:01:51,043 và cuối cùng chúng ta có một bộ sưu tập nhiều trang trên web. 39 00:01:51,043 --> 00:01:54,007 Vì thế đó là những gì chúng ta cần làm để xây dựng webcrawler 40 00:01:54,007 --> 00:01:56,095 Chúng ta muốn tìm một số cách để bắt đầu từ một trang ban đầu 41 00:01:56,095 --> 00:01:59,056 Rút ra tất cả những link trên trang đó 42 00:01:59,056 --> 00:02:01,078 Theo sau những link đó đến những trang khác. 43 00:02:01,078 --> 00:02:03,067 Sau đó thu thập những link trên những trang khác đó. 44 00:02:03,067 --> 00:02:05,024 Theo sau chúng thu thập tất cả cái đó. 45 00:02:05,024 --> 00:02:07,038 Vì thế nghe có vẻ nhiều việc để làm, 46 00:02:07,038 --> 00:02:09,014 chúng ta sẽ không làm tất cả những cái đó. 47 00:02:09,014 --> 00:02:12,072 Những gì chúng ta cần làm trong unit đầu này là rút ra một link. 48 00:02:12,072 --> 00:02:14,058 Vì thế chúng sẽ bắt đầu với một cụm văn bản 49 00:02:14,058 --> 00:02:17,033 Nó sẽ có một link trong nó với một Url. 50 00:02:17,033 --> 00:02:19,064 Nhữn gì chúng ta muốn làm là tìm ra Url đó. 51 00:02:19,064 --> 00:02:21,089 Vì thế chúng ta có thể yêu cầu trang kế tiếp. 52 00:02:21,089 --> 00:02:23,082 Mục tiêu của unit 2 là tiếp tục. 53 00:02:23,082 --> 00:02:25,016 là tiếp tục 54 00:02:25,016 --> 00:02:28,049 Nếu có nhiều link trên một trang , chúng ta muốn có thể tìm ra tất cả chúng 55 00:02:28,049 --> 00:02:30,014 và đó là những gì chúng ta làm trong unit 2. 56 00:02:30,014 --> 00:02:32,069 Là chỉ ra cách rút ra tất cả các link đó 57 00:02:32,069 --> 00:02:36,061 Trong unit 3 chúng ta sẽ đi vượt xa hơn chỉ một trang, 58 00:02:36,061 --> 00:02:40,033 vì thế đến cuối unit 2 chúng ta có thể in ra tất cả đường link trong một trang. 59 00:02:40,033 --> 00:02:44,002 Cho unit 3 chúng ta muốn thu thập tất cả những link vì thế có thể giữ tiếp tuc 60 00:02:44,002 --> 00:02:47,018 theo sau đến cuối cùng web thu thập của chúng ta thu thập được nhiều, nhiều trang. 61 00:02:47,018 --> 00:02:50,013 Vì thế đến cuối unit 3 chúng ta xây dựng được web thu thập 62 00:02:50,013 --> 00:02:52,033 Chúng ta sẽ có một cách xây dựng kho ngữ liệu 63 00:02:52,033 --> 00:02:57,079 3 unit còn lại sẽ nhìn ra cách phản hồi những câu hỏi yêu cầu. 64 00:02:57,079 --> 00:03:01,034 vì thế unit 4 sẽ chỉ ra cách cho một phản hồi tốt. 65 00:03:01,034 --> 00:03:08,022 Nếu chúng ta tìm kiếm một từ khóa. Chúng ta muốn trả ra một danh sách trang web 66 00:03:08,022 --> 00:03:10,063 mà ở đó từ khóa xuất hiện. 67 00:03:10,063 --> 00:03:15,090 và chúng ta sẽ chỉ ra trong unit 5 1 cách để làm điều đó, điều đó nặng cân, nếu chúng ta có một kho ngữ liệu lớn 68 00:03:15,090 --> 00:03:19,083 Trong unit 6 những gì chúng ta làm là ,không chỉ muốn tìm ra một list 69 00:03:19,083 --> 00:03:21,069 mà là tìm ra một trang tốt nhất. 70 00:03:21,069 --> 00:03:24,084 vì thế chúng ta sẽ tính ra xếp hạng tất cả các trang mà ở đó từ khóa xuất hiện. 71 00:03:24,084 --> 00:03:27,068 Chúng ta có một cái trước mắt bây giờ 72 00:03:27,068 --> 00:03:30,035 sẽ làm cho unit 1 73 00:03:30,035 --> 00:03:32,064 là chỉ ra cách rút trích link từ trang web. 74 00:03:32,064 --> 00:03:35,073 Và công cụ tìm kiếm chúng ta xây dựng cuối unit này 75 00:03:35,073 --> 00:03:37,034 là một chức năng của công cụ tìm kiếm 76 00:03:37,034 --> 00:03:40,061 Chúng ta sẽ có những thành phần chính mà một công cụ tìm kiếm giống như Google có. 77 00:03:40,061 --> 00:03:43,014 Chắc chắn không có đủ quyền năng như Google 78 00:03:43,014 --> 00:03:44,029 Chúng ta muốn giữ những điều đơn giản 79 00:03:44,029 --> 00:03:46,060 .Chúng ta muốn có một số lượng mã nhỏ để viết. 80 00:03:46,060 --> 00:03:48,010 và chúng ta nên nhớ mục đích thật sự của chúng ta 81 00:03:48,010 --> 00:03:50,024 không nhiều như xây dựng công cụ tìm kiếm. 82 00:03:50,024 --> 00:03:52,078 nhưng sử dụng xây dựng công cụ tìm kiếm như một phương tiện 83 00:03:52,078 --> 00:03:55,018 để học về khoa học máy tính. 84 00:03:55,018 --> 00:03:56,075 Và học về lập trình 85 00:03:56,075 --> 00:03:58,018 những điều chúng ta học bằng cách làm cái này 86 00:03:58,018 --> 99:59:59,999 sẽ cho phép chúng ta giải quyết nhiều, thật nhiều những vấn đề khác.