WEBVTT 00:00:00.000 --> 00:00:02.018 [Sebastian Thrun]Vì thế những gì anh đảm nhiệm là làm thế nào xây dựng một công cụ tìm kiếm. 00:00:02.018 --> 00:00:03.077 Anh xây dựng một công cụ tìm kiếm trước đây đúng không ? 00:00:03.077 --> 00:00:06.008 [Sergey Brin - Đồng sáng lập hãng Google] . Vâng , tôi nghĩ điều quan trọng 00:00:06.008 --> 00:00:08.013 nếu bạn xây dựng một công cụ tìm kiếm 00:00:08.013 --> 00:00:12.051 là có một kho ngữ liệu bắt đầu ở ngoài 00:00:12.051 --> 00:00:19.020 Trong trường hợp của chúng tôi thời gian đó sử dụng world wide web lúc đó chắc chắn quy mô nó nhỏ hơn hôm nay 00:00:19.020 --> 00:00:21.036 nhưng cũng rất mới và thú vị. 00:00:21.036 --> 00:00:23.081 Có tất cả những sự xắp xếp không mong đợi ở đó. 00:00:23.081 --> 00:00:26.099 [David Evans] Vì thế mục tiêu của 3 unit đầu tiên là làm kho ngữ liệu đó. 00:00:27.003 --> 00:00:30.009 Và chúng ta muốn xây dựng kho ngữ liệu cho công cụ tìm kiếm của chúng ta 00:00:30.009 --> 00:00:32.090 bằng cách thu thập cac trang web, chúng ta gọi là web thu thập 00:00:32.090 --> 00:00:36.038 thu thập web là gì ?nó là chương trình thu thập nội dung từ web 00:00:36.038 --> 00:00:40.054 Nếu bạn nghĩ đến một trang web trong trình duyệt, bạn có một trang giống thế này 00:00:40.054 --> 00:00:43.099 và chúng ta sử dụng Udacity như một trang ví dụ. 00:00:43.099 --> 00:00:47.097 nó có nhiều nội dung , có một số ảnh ,có một số văn bản 00:00:47.097 --> 00:00:51.038 Tất cả những thứ này đến trình duyệt của bạn khi bạn yêu cầu trang web. 00:00:51.038 --> 00:00:53.066 Điều quan trọng là nó có những cái links. 00:00:53.066 --> 00:00:57.093 Một link là gì ? là cái gì mà nó đi đến một trang khác 00:00:57.093 --> 00:01:00.050 vì thế chúng ta có một link những câu hỏi thường xuyên 00:01:00.050 --> 00:01:02.046 Chúng ta có một link đến trang CS 101. 00:01:02.046 --> 00:01:04.043 Có một số link khác trong trang này. 00:01:04.043 --> 00:01:07.054 Và link đó xuất hiện trong trình duyệt của bạn với lằn gạch dưới. 00:01:07.054 --> 00:01:09.094 nếu không có thì tùy thuộc trình duyệt của bạn bố trí. 00:01:09.094 --> 00:01:11.095 Nhưng điều quan trọng nó là 00:01:11.095 --> 00:01:13.088 một điểm chỉ đến một trang web khác 00:01:13.088 --> 00:01:16.043 và những trang web đó có thể cũng có những đường link 00:01:16.043 --> 00:01:19.073 Vì thế chúng ta có link khác trong trang này 00:01:19.073 --> 00:01:23.052 có thể nó là tên của của tôi. Bạn có thể theo trang nhà của tôi 00:01:23.052 --> 00:01:26.091 Và tất cả những trang web chúng ta có thể tìm thấy với web thu thập của chúng ta. 00:01:26.091 --> 00:01:29.009 Được tìm thấy nhờ những link theo sau nó. 00:01:29.009 --> 00:01:31.067 Vì thế thật không cần thiết để tìm kiếm mỗi trang trên web. 00:01:31.067 --> 00:01:33.059 Nếu chúng ta bắt đầu với một trang ban đầu tốt 00:01:33.059 --> 00:01:35.003 Qua đó ta có thể tìm thấy nhiều trang. 00:01:35.003 --> 00:01:37.050 và những gì webcrawler làm là bắt đầu với một trang 00:01:37.050 --> 00:01:41.056 tìm ra tất cả những link trên trang đó, theo sau chúng để tìm ra những trang khác. 00:01:41.056 --> 00:01:45.013 Và sau đó trên những trang khác đó, nó sẽ theo sau những link trên trang đó 00:01:45.013 --> 00:01:48.031 để tìm ra những trang khác nữa, và sẽ có nhiều link hơn trên những trang đó 00:01:48.031 --> 00:01:51.043 và cuối cùng chúng ta có một bộ sưu tập nhiều trang trên web. 00:01:51.043 --> 00:01:54.007 Vì thế đó là những gì chúng ta cần làm để xây dựng webcrawler 00:01:54.007 --> 00:01:56.095 Chúng ta muốn tìm một số cách để bắt đầu từ một trang ban đầu 00:01:56.095 --> 00:01:59.056 Rút ra tất cả những link trên trang đó 00:01:59.056 --> 00:02:01.078 Theo sau những link đó đến những trang khác. 00:02:01.078 --> 00:02:03.067 Sau đó thu thập những link trên những trang khác đó. 00:02:03.067 --> 00:02:05.024 Theo sau chúng thu thập tất cả cái đó. 00:02:05.024 --> 00:02:07.038 Vì thế nghe có vẻ nhiều việc để làm, 00:02:07.038 --> 00:02:09.014 chúng ta sẽ không làm tất cả những cái đó. 00:02:09.014 --> 00:02:12.072 Những gì chúng ta cần làm trong unit đầu này là rút ra một link. 00:02:12.072 --> 00:02:14.058 Vì thế chúng sẽ bắt đầu với một cụm văn bản 00:02:14.058 --> 00:02:17.033 Nó sẽ có một link trong nó với một Url. 00:02:17.033 --> 00:02:19.064 Nhữn gì chúng ta muốn làm là tìm ra Url đó. 00:02:19.064 --> 00:02:21.089 Vì thế chúng ta có thể yêu cầu trang kế tiếp. 00:02:21.089 --> 00:02:23.082 Mục tiêu của unit 2 là tiếp tục. 00:02:23.082 --> 00:02:25.016 là tiếp tục 00:02:25.016 --> 00:02:28.049 Nếu có nhiều link trên một trang , chúng ta muốn có thể tìm ra tất cả chúng 00:02:28.049 --> 00:02:30.014 và đó là những gì chúng ta làm trong unit 2. 00:02:30.014 --> 00:02:32.069 Là chỉ ra cách rút ra tất cả các link đó 00:02:32.069 --> 00:02:36.061 Trong unit 3 chúng ta sẽ đi vượt xa hơn chỉ một trang, 00:02:36.061 --> 00:02:40.033 vì thế đến cuối unit 2 chúng ta có thể in ra tất cả đường link trong một trang. 00:02:40.033 --> 00:02:44.002 Cho unit 3 chúng ta muốn thu thập tất cả những link vì thế có thể giữ tiếp tuc 00:02:44.002 --> 00:02:47.018 theo sau đến cuối cùng web thu thập của chúng ta thu thập được nhiều, nhiều trang. 00:02:47.018 --> 00:02:50.013 Vì thế đến cuối unit 3 chúng ta xây dựng được web thu thập 00:02:50.013 --> 00:02:52.033 Chúng ta sẽ có một cách xây dựng kho ngữ liệu 00:02:52.033 --> 00:02:57.079 3 unit còn lại sẽ nhìn ra cách phản hồi những câu hỏi yêu cầu. 00:02:57.079 --> 00:03:01.034 vì thế unit 4 sẽ chỉ ra cách cho một phản hồi tốt. 00:03:01.034 --> 00:03:08.022 Nếu chúng ta tìm kiếm một từ khóa. Chúng ta muốn trả ra một danh sách trang web 00:03:08.022 --> 00:03:10.063 mà ở đó từ khóa xuất hiện. 00:03:10.063 --> 00:03:15.090 và chúng ta sẽ chỉ ra trong unit 5 1 cách để làm điều đó, điều đó nặng cân, nếu chúng ta có một kho ngữ liệu lớn 00:03:15.090 --> 00:03:19.083 Trong unit 6 những gì chúng ta làm là ,không chỉ muốn tìm ra một list 00:03:19.083 --> 00:03:21.069 mà là tìm ra một trang tốt nhất. 00:03:21.069 --> 00:03:24.084 vì thế chúng ta sẽ tính ra xếp hạng tất cả các trang mà ở đó từ khóa xuất hiện. 00:03:24.084 --> 00:03:27.068 Chúng ta có một cái trước mắt bây giờ 00:03:27.068 --> 00:03:30.035 sẽ làm cho unit 1 00:03:30.035 --> 00:03:32.064 là chỉ ra cách rút trích link từ trang web. 00:03:32.064 --> 00:03:35.073 Và công cụ tìm kiếm chúng ta xây dựng cuối unit này 00:03:35.073 --> 00:03:37.034 là một chức năng của công cụ tìm kiếm 00:03:37.034 --> 00:03:40.061 Chúng ta sẽ có những thành phần chính mà một công cụ tìm kiếm giống như Google có. 00:03:40.061 --> 00:03:43.014 Chắc chắn không có đủ quyền năng như Google 00:03:43.014 --> 00:03:44.029 Chúng ta muốn giữ những điều đơn giản 00:03:44.029 --> 00:03:46.060 .Chúng ta muốn có một số lượng mã nhỏ để viết. 00:03:46.060 --> 00:03:48.010 và chúng ta nên nhớ mục đích thật sự của chúng ta 00:03:48.010 --> 00:03:50.024 không nhiều như xây dựng công cụ tìm kiếm. 00:03:50.024 --> 00:03:52.078 nhưng sử dụng xây dựng công cụ tìm kiếm như một phương tiện 00:03:52.078 --> 00:03:55.018 để học về khoa học máy tính. 00:03:55.018 --> 00:03:56.075 Và học về lập trình 00:03:56.075 --> 00:03:58.018 những điều chúng ta học bằng cách làm cái này 00:03:58.018 --> 99:59:59.999 sẽ cho phép chúng ta giải quyết nhiều, thật nhiều những vấn đề khác.