0:00:00.000,0:00:02.018 [Sebastian Thrun]Vì thế những gì anh đảm nhiệm là làm thế nào xây dựng một công cụ tìm kiếm. 0:00:02.018,0:00:03.077 Anh xây dựng một công cụ tìm kiếm trước đây đúng không ? 0:00:03.077,0:00:06.008 [Sergey Brin - Đồng sáng lập hãng Google] . Vâng , tôi nghĩ điều quan trọng 0:00:06.008,0:00:08.013 nếu bạn xây dựng một công cụ tìm kiếm 0:00:08.013,0:00:12.051 là có một kho ngữ liệu bắt đầu ở ngoài 0:00:12.051,0:00:19.020 Trong trường hợp của chúng tôi thời gian đó sử dụng world wide web lúc đó chắc chắn quy mô nó nhỏ hơn hôm nay 0:00:19.020,0:00:21.036 nhưng cũng rất mới và thú vị. 0:00:21.036,0:00:23.081 Có tất cả những sự xắp xếp không mong đợi ở đó. 0:00:23.081,0:00:26.099 [David Evans] Vì thế mục tiêu của 3 unit đầu tiên là làm kho ngữ liệu đó. 0:00:27.003,0:00:30.009 Và chúng ta muốn xây dựng kho ngữ liệu cho công cụ tìm kiếm của chúng ta 0:00:30.009,0:00:32.090 bằng cách thu thập cac trang web, chúng ta gọi là web thu thập 0:00:32.090,0:00:36.038 thu thập web là gì ?nó là chương trình thu thập nội dung từ web 0:00:36.038,0:00:40.054 Nếu bạn nghĩ đến một trang web trong trình duyệt, bạn có một trang giống thế này 0:00:40.054,0:00:43.099 và chúng ta sử dụng Udacity như một trang ví dụ. 0:00:43.099,0:00:47.097 nó có nhiều nội dung , có một số ảnh ,có một số văn bản 0:00:47.097,0:00:51.038 Tất cả những thứ này đến trình duyệt của bạn khi bạn yêu cầu trang web. 0:00:51.038,0:00:53.066 Điều quan trọng là nó có những cái links. 0:00:53.066,0:00:57.093 Một link là gì ? là cái gì mà nó đi đến một trang khác 0:00:57.093,0:01:00.050 vì thế chúng ta có một link những câu hỏi thường xuyên 0:01:00.050,0:01:02.046 Chúng ta có một link đến trang CS 101. 0:01:02.046,0:01:04.043 Có một số link khác trong trang này. 0:01:04.043,0:01:07.054 Và link đó xuất hiện trong trình duyệt của bạn với lằn gạch dưới. 0:01:07.054,0:01:09.094 nếu không có thì tùy thuộc trình duyệt của bạn bố trí. 0:01:09.094,0:01:11.095 Nhưng điều quan trọng nó là 0:01:11.095,0:01:13.088 một điểm chỉ đến một trang web khác 0:01:13.088,0:01:16.043 và những trang web đó có thể cũng có những đường link 0:01:16.043,0:01:19.073 Vì thế chúng ta có link khác trong trang này 0:01:19.073,0:01:23.052 có thể nó là tên của của tôi. Bạn có thể theo trang nhà của tôi 0:01:23.052,0:01:26.091 Và tất cả những trang web chúng ta có thể tìm thấy với web thu thập của chúng ta. 0:01:26.091,0:01:29.009 Được tìm thấy nhờ những link theo sau nó. 0:01:29.009,0:01:31.067 Vì thế thật không cần thiết để tìm kiếm mỗi trang trên web. 0:01:31.067,0:01:33.059 Nếu chúng ta bắt đầu với một trang ban đầu tốt 0:01:33.059,0:01:35.003 Qua đó ta có thể tìm thấy nhiều trang. 0:01:35.003,0:01:37.050 và những gì webcrawler làm là bắt đầu với một trang 0:01:37.050,0:01:41.056 tìm ra tất cả những link trên trang đó, theo sau chúng để tìm ra những trang khác. 0:01:41.056,0:01:45.013 Và sau đó trên những trang khác đó, nó sẽ theo sau những link trên trang đó 0:01:45.013,0:01:48.031 để tìm ra những trang khác nữa, và sẽ có nhiều link hơn trên những trang đó 0:01:48.031,0:01:51.043 và cuối cùng chúng ta có một bộ sưu tập nhiều trang trên web. 0:01:51.043,0:01:54.007 Vì thế đó là những gì chúng ta cần làm để xây dựng webcrawler 0:01:54.007,0:01:56.095 Chúng ta muốn tìm một số cách để bắt đầu từ một trang ban đầu 0:01:56.095,0:01:59.056 Rút ra tất cả những link trên trang đó 0:01:59.056,0:02:01.078 Theo sau những link đó đến những trang khác. 0:02:01.078,0:02:03.067 Sau đó thu thập những link trên những trang khác đó. 0:02:03.067,0:02:05.024 Theo sau chúng thu thập tất cả cái đó. 0:02:05.024,0:02:07.038 Vì thế nghe có vẻ nhiều việc để làm, 0:02:07.038,0:02:09.014 chúng ta sẽ không làm tất cả những cái đó. 0:02:09.014,0:02:12.072 Những gì chúng ta cần làm trong unit đầu này là rút ra một link. 0:02:12.072,0:02:14.058 Vì thế chúng sẽ bắt đầu với một cụm văn bản 0:02:14.058,0:02:17.033 Nó sẽ có một link trong nó với một Url. 0:02:17.033,0:02:19.064 Nhữn gì chúng ta muốn làm là tìm ra Url đó. 0:02:19.064,0:02:21.089 Vì thế chúng ta có thể yêu cầu trang kế tiếp. 0:02:21.089,0:02:23.082 Mục tiêu của unit 2 là tiếp tục. 0:02:23.082,0:02:25.016 là tiếp tục 0:02:25.016,0:02:28.049 Nếu có nhiều link trên một trang , chúng ta muốn có thể tìm ra tất cả chúng 0:02:28.049,0:02:30.014 và đó là những gì chúng ta làm trong unit 2. 0:02:30.014,0:02:32.069 Là chỉ ra cách rút ra tất cả các link đó 0:02:32.069,0:02:36.061 Trong unit 3 chúng ta sẽ đi vượt xa hơn chỉ một trang, 0:02:36.061,0:02:40.033 vì thế đến cuối unit 2 chúng ta có thể in ra tất cả đường link trong một trang. 0:02:40.033,0:02:44.002 Cho unit 3 chúng ta muốn thu thập tất cả những link vì thế có thể giữ tiếp tuc 0:02:44.002,0:02:47.018 theo sau đến cuối cùng web thu thập của chúng ta thu thập được nhiều, nhiều trang. 0:02:47.018,0:02:50.013 Vì thế đến cuối unit 3 chúng ta xây dựng được web thu thập 0:02:50.013,0:02:52.033 Chúng ta sẽ có một cách xây dựng kho ngữ liệu 0:02:52.033,0:02:57.079 3 unit còn lại sẽ nhìn ra cách phản hồi những câu hỏi yêu cầu. 0:02:57.079,0:03:01.034 vì thế unit 4 sẽ chỉ ra cách cho một phản hồi tốt. 0:03:01.034,0:03:08.022 Nếu chúng ta tìm kiếm một từ khóa. Chúng ta muốn trả ra một danh sách trang web 0:03:08.022,0:03:10.063 mà ở đó từ khóa xuất hiện. 0:03:10.063,0:03:15.090 và chúng ta sẽ chỉ ra trong unit 5 1 cách để làm điều đó, điều đó nặng cân, nếu chúng ta có một kho ngữ liệu lớn 0:03:15.090,0:03:19.083 Trong unit 6 những gì chúng ta làm là ,không chỉ muốn tìm ra một list 0:03:19.083,0:03:21.069 mà là tìm ra một trang tốt nhất. 0:03:21.069,0:03:24.084 vì thế chúng ta sẽ tính ra xếp hạng tất cả các trang mà ở đó từ khóa xuất hiện. 0:03:24.084,0:03:27.068 Chúng ta có một cái trước mắt bây giờ 0:03:27.068,0:03:30.035 sẽ làm cho unit 1 0:03:30.035,0:03:32.064 là chỉ ra cách rút trích link từ trang web. 0:03:32.064,0:03:35.073 Và công cụ tìm kiếm chúng ta xây dựng cuối unit này 0:03:35.073,0:03:37.034 là một chức năng của công cụ tìm kiếm 0:03:37.034,0:03:40.061 Chúng ta sẽ có những thành phần chính mà một công cụ tìm kiếm giống như Google có. 0:03:40.061,0:03:43.014 Chắc chắn không có đủ quyền năng như Google 0:03:43.014,0:03:44.029 Chúng ta muốn giữ những điều đơn giản 0:03:44.029,0:03:46.060 .Chúng ta muốn có một số lượng mã nhỏ để viết. 0:03:46.060,0:03:48.010 và chúng ta nên nhớ mục đích thật sự của chúng ta 0:03:48.010,0:03:50.024 không nhiều như xây dựng công cụ tìm kiếm. 0:03:50.024,0:03:52.078 nhưng sử dụng xây dựng công cụ tìm kiếm như một phương tiện 0:03:52.078,0:03:55.018 để học về khoa học máy tính. 0:03:55.018,0:03:56.075 Và học về lập trình 0:03:56.075,0:03:58.018 những điều chúng ta học bằng cách làm cái này 0:03:58.018,9:59:59.000 sẽ cho phép chúng ta giải quyết nhiều, thật nhiều những vấn đề khác.