WEBVTT 00:00:06.070 --> 00:00:07.120 Xin chào, tôi là John. 00:00:07.510 --> 00:00:10.140 Tôi là trưởng nhóm tìm kiếm và máy học tại Google. 00:00:12.130 --> 00:00:14.230 Tôi thật sự thấy phấn khích trước việc 00:00:14.230 --> 00:00:16.214 mọi người từ khắp nơi trên thế giới 00:00:16.215 --> 00:00:19.160 tìm đến các công cụ tìm kiếm để hỏi những điều vụn vặt 00:00:19.160 --> 00:00:20.930 cũng như những điều thực sự lớn lao. 00:00:20.930 --> 00:00:23.450 Vậy nên, trách nhiệm to lớn của chúng tôi là mang đến cho họ 00:00:23.450 --> 00:00:24.864 câu trả lời tốt nhất. 00:00:26.710 --> 00:00:30.610 Xin chào, tôi là Akshaya, và tôi làm trong đội ngũ tìm kiếm của Bing. 00:00:30.910 --> 00:00:33.190 Có rất nhiều thời điểm khi chúng tôi bắt đầu nghiên cứu về 00:00:33.190 --> 00:00:35.800 trí thông minh nhân tạo và máy học, 00:00:35.830 --> 00:00:39.010 nhưng chúng tôi phải chú ý đến cách người dùng sẽ sử dụng 00:00:39.140 --> 00:00:42.390 bởi lẽ suy cho cùng, chúng tôi muốn tác động đến xã hội. 00:00:43.780 --> 00:00:45.400 Hãy thử hỏi một câu đơn giản thôi. 00:00:45.820 --> 00:00:48.070 Mất bao lâu để bay lên Sao Hỏa? 00:00:49.330 --> 00:00:50.950 Những kết quả này đến từ đâu 00:00:51.370 --> 00:00:54.100 và tại sao kết quả này được liệt kê trước kết quả kia? 00:00:55.700 --> 00:00:58.150 Giờ thì hãy đào sâu và xem thử công cụ tìm kiếm 00:00:58.150 --> 00:00:59.860 biến yêu cầu của bạn thành kết quả như thế nào. 00:01:00.690 --> 00:01:03.360 Điều đầu tiên bạn cần phải biết chính là khi bạn tìm kiếm, 00:01:03.430 --> 00:01:06.480 công cụ tìm kiếm thực ra không truy cập vào mạng lưới toàn cầu 00:01:06.480 --> 00:01:08.010 để chạy lệnh tìm kiếm của bạn theo thời gian thực. 00:01:08.140 --> 00:01:10.610 Và lý do chính là vì có hơn một tỷ trang web 00:01:10.610 --> 00:01:14.140 trên Internet và hàng trăm trang web mới tạo mỗi phút. 00:01:14.140 --> 00:01:16.210 Vậy nên nếu công cụ tìm kiếm phải tìm hết 00:01:16.240 --> 00:01:18.690 từng trang một để tìm ra câu trả lời cho bạn 00:01:18.690 --> 00:01:20.120 thì chắc còn lâu mới xong. 00:01:20.500 --> 00:01:21.940 Cho nên, để bạn tìm kiếm nhanh hơn, 00:01:21.970 --> 00:01:24.940 công cụ tìm kiếm sẽ liên tục quét trước các trang web 00:01:25.420 --> 00:01:28.560 để ghi nhận thông tin có thể hỗ trợ bạn tìm kiếm sau này. 00:01:28.930 --> 00:01:31.270 Bằng cách đó, khi bạn tìm kiếm về việc bay lên Sao Hỏa, 00:01:31.630 --> 00:01:33.700 công cụ tìm kiếm đã có cái dữ liệu cần thiết 00:01:33.700 --> 00:01:35.728 để cho bạn câu trả lời theo thời gian thực. 00:01:36.250 --> 00:01:37.540 Đây là cách nó hoạt động. 00:01:37.900 --> 00:01:42.010 Internet là một mạng lưới các trang được kết nối với nhau bằng các siêu liên kết. 00:01:42.400 --> 00:01:44.680 Công cụ tìm kiếm liên tục chạy một chương trình 00:01:44.680 --> 00:01:47.380 mang tên Spider, truy cập hết những trang web này 00:01:47.380 --> 00:01:49.040 để thu thập thông tin về chúng. 00:01:49.780 --> 00:01:51.550 Mỗi khi nó tìm thấy một siêu liên kết, 00:01:52.090 --> 00:01:55.000 nó sẽ đi theo liên kết ấy cho đến khi đã truy cập hết tất cả các trang 00:01:55.030 --> 00:01:57.240 nó có thể tìm thấy trên toàn bộ Internet. 00:01:57.335 --> 00:01:59.170 Với mỗi trang spider truy cập, 00:01:59.200 --> 00:02:02.320 nó sẽ ghi nhận mọi thông tin có thể cần thiết cho việc tìm kiếm 00:02:02.500 --> 00:02:05.650 bằng cách thêm thông tin đó vào cơ sở dữ liệu đặc biệt mang tên danh mục tìm kiếm. 00:02:07.166 --> 00:02:09.530 Bây giờ chúng ta hãy quay lại lệnh tìm kiếm trước đó 00:02:09.590 --> 00:02:11.990 và xem thử liệu chúng ta có thể hiểu được cách công cụ tìm kiếm 00:02:11.990 --> 00:02:13.333 cho ra các kết quả. 00:02:13.640 --> 00:02:16.460 Khi bạn hỏi mất bao lâu để bay lên Sao Hỏa, 00:02:16.640 --> 00:02:18.860 công cụ tìm kiếm sẽ tìm kiếm từng từ một trong số đó 00:02:18.920 --> 00:02:21.410 trong danh mục tìm kiếm để ngay lập tức lên danh sách 00:02:21.410 --> 00:02:24.500 tất cả các trang trên Internet có chứa những từ đó. 00:02:24.890 --> 00:02:26.870 Nhưng chỉ dựa vào những từ tìm kiếm này thôi 00:02:26.870 --> 00:02:28.760 thì sẽ cho ra hàng triệu trang, 00:02:28.760 --> 00:02:31.110 vậy nên, công cụ tìm kiếm cần có khả năng xác định 00:02:31.110 --> 00:02:33.120 kết quả phù hợp nhất để đưa ra cho bạn. 00:02:33.340 --> 00:02:36.010 Đây là lúc mọi chuyện trở nên khó khăn bởi lẽ công cụ tìm kiếm 00:02:36.010 --> 00:02:38.040 có thể cần phải đoán xem bạn đang tìm kiếm điều gì. 00:02:38.930 --> 00:02:41.360 Mỗi công cụ tìm kiếm sẽ dùng thuật toán riêng của mình 00:02:41.360 --> 00:02:44.230 để xếp hạng các trang dựa trên điều nó nghĩ là bạn muốn tìm. 00:02:44.930 --> 00:02:47.660 Thuật toán xếp hạng của công cụ tìm kiếm có thể sẽ kiểm xem 00:02:47.990 --> 00:02:50.360 liệu từ khóa tìm kiếm của bạn có xuất hiện trên tiêu đề của trang không, 00:02:50.900 --> 00:02:53.820 nó có thể sẽ kiểm tra xem liệu tất cả các từ có xuất hiện bên cạnh nhau không 00:02:54.520 --> 00:02:57.020 hay có con số bất kỳ trong phép tính khác 00:02:57.020 --> 00:02:58.610 có thể giúp xác định tốt hơn 00:02:58.670 --> 00:03:01.420 trang nào là trang bạn sẽ muốn xem và trang nào thì không. 00:03:02.960 --> 00:03:04.960 Google đã phát minh ra thuật toán nổi tiếng nhất 00:03:04.960 --> 00:03:08.530 để chọn ra các kết quả liên quan nhất cho một lệnh tìm kiếm bằng cách tính đến việc 00:03:08.560 --> 00:03:11.230 có bao nhiêu trang web khác liên kết với một trang bất kỳ. 00:03:11.830 --> 00:03:14.140 Lập luận ở đây chính là nếu nhiều trang web cho rằng 00:03:14.140 --> 00:03:15.660 trang web đó thú vị 00:03:15.660 --> 00:03:17.940 thì rất có thể đó chính là trang bạn đang tìm kiếm. 00:03:18.190 --> 00:03:20.020 Thuật toán này được gọi là xếp hạng Page, 00:03:20.590 --> 00:03:22.330 không phải vì nó xếp hạng các trang web 00:03:22.570 --> 00:03:25.210 mà vì nó được đặt theo tên của người phát minh ra nó, Larry Page, 00:03:25.480 --> 00:03:27.333 một trong những nhà sáng lập của Google. 00:03:27.940 --> 00:03:30.520 Vì trang web thường có doanh thu khi bạn truy cập 00:03:30.820 --> 00:03:32.950 nên các trang rác đang không ngừng tìm cách 00:03:32.950 --> 00:03:35.741 lợi dụng thuật toán tìm kiếm để các trang ấy 00:03:35.742 --> 00:03:37.931 trở thành kết quả xuất hiện trước. 00:03:38.260 --> 00:03:40.750 Các công cụ tìm kiếm thường xuyên cập nhật thuật toán của mình 00:03:40.750 --> 00:03:44.296 để ngăn các trang giả mạo hoặc không đáng tin cậy đạt xếp hạng cao. 00:03:44.680 --> 00:03:47.350 Hơn hết thảy, chính bạn là người cần để mắt đến 00:03:47.500 --> 00:03:49.450 những trang thiếu tin cậy này 00:03:49.690 --> 00:03:52.990 bằng cách nhìn vào địa chỉ web và đảm bảo đó là nguồn đáng tin cậy. 00:03:53.680 --> 00:03:55.390 Các chương trình tìm kiếm luôn phát triển 00:03:55.420 --> 00:03:58.420 để cải thiện các thuật toán nhằm cho ra các kết quả chính xác hơn, 00:03:58.540 --> 00:04:00.460 nhanh hơn so với đối thủ cạnh tranh. 00:04:01.000 --> 00:04:03.100 Các công cụ tìm kiếm ngày nay thậm chí còn dùng thông tin 00:04:03.100 --> 00:04:06.820 bạn chưa biểu đạt rõ ràng để giúp bạn khoanh vùng tìm kiếm. 00:04:07.150 --> 00:04:10.120 Ví dụ như: Nếu bạn tìm công viên cho chó, 00:04:10.240 --> 00:04:12.190 nhiều công cụ tìm kiếm sẽ cho bạn kết quả 00:04:12.190 --> 00:04:13.840 về tất cả các công viên cho chó lân cận 00:04:14.080 --> 00:04:16.260 mặc dù bạn không hề gõ vào địa điểm của mình. 00:04:17.800 --> 00:04:20.530 Công cụ tìm kiếm hiện đại không chỉ đơn thuần hiểu 00:04:20.530 --> 00:04:22.060 về từ ngữ có trên trang 00:04:22.300 --> 00:04:24.970 mà còn hiểu ý nghĩa thực sự của chúng để tìm ra kết quả 00:04:24.970 --> 00:04:26.750 phù hợp nhất mà bạn đang tìm kiếm. 00:04:27.130 --> 00:04:29.980 Ví dụ: Nếu bạn tìm "fast pitcher", 00:04:30.280 --> 00:04:32.300 nó sẽ hiểu là bạn đang tìm kiếm một vận động viên. 00:04:32.500 --> 00:04:34.450 Nhưng nếu bạn tìm "large pitcher", 00:04:34.450 --> 00:04:36.730 nó sẽ tìm kiếm những lựa chọn cho căn bếp của bạn. 00:04:38.420 --> 00:04:41.910 Để hiểu hơn về từ ngữ, chúng ta dùng đến cái gọi là máy học, 00:04:41.910 --> 00:04:43.985 một loại trí thông minh nhân tạo. 00:04:43.985 --> 00:04:46.050 Nó cho phép thuật toán tìm kiếm không chỉ 00:04:46.090 --> 00:04:48.400 tìm kiếm các chữ cái hoặc từ ngữ đơn lẻ trên trang 00:04:48.400 --> 00:04:51.280 mà còn hiểu được ý nghĩa ẩn sâu của từ ngữ. 00:04:53.690 --> 00:04:55.850 Internet đang phát triển mạnh mẽ, 00:04:56.210 --> 00:04:59.810 nhưng nếu đội ngũ thiết kế công cụ tìm kiếm làm việc hiệu quả, 00:05:00.080 --> 00:05:04.090 bạn sẽ chỉ cần gõ vài phím để có được thông tin mình cần.