1 00:00:06,070 --> 00:00:07,120 Xin chào, tôi là John. 2 00:00:07,510 --> 00:00:10,140 Tôi là trưởng nhóm tìm kiếm và máy học tại Google. 3 00:00:12,130 --> 00:00:14,230 Tôi thật sự thấy phấn khích trước việc 4 00:00:14,230 --> 00:00:16,214 mọi người từ khắp nơi trên thế giới 5 00:00:16,215 --> 00:00:19,160 tìm đến các công cụ tìm kiếm để hỏi những điều vụn vặt 6 00:00:19,160 --> 00:00:20,930 cũng như những điều thực sự lớn lao. 7 00:00:20,930 --> 00:00:23,450 Vậy nên, trách nhiệm to lớn của chúng tôi là mang đến cho họ 8 00:00:23,450 --> 00:00:24,864 câu trả lời tốt nhất. 9 00:00:26,710 --> 00:00:30,610 Xin chào, tôi là Akshaya, và tôi làm trong đội ngũ tìm kiếm của Bing. 10 00:00:30,910 --> 00:00:33,190 Có rất nhiều thời điểm khi chúng tôi bắt đầu nghiên cứu về 11 00:00:33,190 --> 00:00:35,800 trí thông minh nhân tạo và máy học, 12 00:00:35,830 --> 00:00:39,010 nhưng chúng tôi phải chú ý đến cách người dùng sẽ sử dụng 13 00:00:39,140 --> 00:00:42,390 bởi lẽ suy cho cùng, chúng tôi muốn tác động đến xã hội. 14 00:00:43,780 --> 00:00:45,400 Hãy thử hỏi một câu đơn giản thôi. 15 00:00:45,820 --> 00:00:48,070 Mất bao lâu để bay lên Sao Hỏa? 16 00:00:49,330 --> 00:00:50,950 Những kết quả này đến từ đâu 17 00:00:51,370 --> 00:00:54,100 và tại sao kết quả này được liệt kê trước kết quả kia? 18 00:00:55,700 --> 00:00:58,150 Giờ thì hãy đào sâu và xem thử công cụ tìm kiếm 19 00:00:58,150 --> 00:00:59,860 biến yêu cầu của bạn thành kết quả như thế nào. 20 00:01:00,690 --> 00:01:03,360 Điều đầu tiên bạn cần phải biết chính là khi bạn tìm kiếm, 21 00:01:03,430 --> 00:01:06,480 công cụ tìm kiếm thực ra không truy cập vào mạng lưới toàn cầu 22 00:01:06,480 --> 00:01:08,010 để chạy lệnh tìm kiếm của bạn theo thời gian thực. 23 00:01:08,140 --> 00:01:10,610 Và lý do chính là vì có hơn một tỷ trang web 24 00:01:10,610 --> 00:01:14,140 trên Internet và hàng trăm trang web mới tạo mỗi phút. 25 00:01:14,140 --> 00:01:16,210 Vậy nên nếu công cụ tìm kiếm phải tìm hết 26 00:01:16,240 --> 00:01:18,690 từng trang một để tìm ra câu trả lời cho bạn 27 00:01:18,690 --> 00:01:20,120 thì chắc còn lâu mới xong. 28 00:01:20,500 --> 00:01:21,940 Cho nên, để bạn tìm kiếm nhanh hơn, 29 00:01:21,970 --> 00:01:24,940 công cụ tìm kiếm sẽ liên tục quét trước các trang web 30 00:01:25,420 --> 00:01:28,560 để ghi nhận thông tin có thể hỗ trợ bạn tìm kiếm sau này. 31 00:01:28,930 --> 00:01:31,270 Bằng cách đó, khi bạn tìm kiếm về việc bay lên Sao Hỏa, 32 00:01:31,630 --> 00:01:33,700 công cụ tìm kiếm đã có cái dữ liệu cần thiết 33 00:01:33,700 --> 00:01:35,728 để cho bạn câu trả lời theo thời gian thực. 34 00:01:36,250 --> 00:01:37,540 Đây là cách nó hoạt động. 35 00:01:37,900 --> 00:01:42,010 Internet là một mạng lưới các trang được kết nối với nhau bằng các siêu liên kết. 36 00:01:42,400 --> 00:01:44,680 Công cụ tìm kiếm liên tục chạy một chương trình 37 00:01:44,680 --> 00:01:47,380 mang tên Spider, truy cập hết những trang web này 38 00:01:47,380 --> 00:01:49,040 để thu thập thông tin về chúng. 39 00:01:49,780 --> 00:01:51,550 Mỗi khi nó tìm thấy một siêu liên kết, 40 00:01:52,090 --> 00:01:55,000 nó sẽ đi theo liên kết ấy cho đến khi đã truy cập hết tất cả các trang 41 00:01:55,030 --> 00:01:57,240 nó có thể tìm thấy trên toàn bộ Internet. 42 00:01:57,335 --> 00:01:59,170 Với mỗi trang spider truy cập, 43 00:01:59,200 --> 00:02:02,320 nó sẽ ghi nhận mọi thông tin có thể cần thiết cho việc tìm kiếm 44 00:02:02,500 --> 00:02:05,650 bằng cách thêm thông tin đó vào cơ sở dữ liệu đặc biệt mang tên danh mục tìm kiếm. 45 00:02:07,166 --> 00:02:09,530 Bây giờ chúng ta hãy quay lại lệnh tìm kiếm trước đó 46 00:02:09,590 --> 00:02:11,990 và xem thử liệu chúng ta có thể hiểu được cách công cụ tìm kiếm 47 00:02:11,990 --> 00:02:13,333 cho ra các kết quả. 48 00:02:13,640 --> 00:02:16,460 Khi bạn hỏi mất bao lâu để bay lên Sao Hỏa, 49 00:02:16,640 --> 00:02:18,860 công cụ tìm kiếm sẽ tìm kiếm từng từ một trong số đó 50 00:02:18,920 --> 00:02:21,410 trong danh mục tìm kiếm để ngay lập tức lên danh sách 51 00:02:21,410 --> 00:02:24,500 tất cả các trang trên Internet có chứa những từ đó. 52 00:02:24,890 --> 00:02:26,870 Nhưng chỉ dựa vào những từ tìm kiếm này thôi 53 00:02:26,870 --> 00:02:28,760 thì sẽ cho ra hàng triệu trang, 54 00:02:28,760 --> 00:02:31,110 vậy nên, công cụ tìm kiếm cần có khả năng xác định 55 00:02:31,110 --> 00:02:33,120 kết quả phù hợp nhất để đưa ra cho bạn. 56 00:02:33,340 --> 00:02:36,010 Đây là lúc mọi chuyện trở nên khó khăn bởi lẽ công cụ tìm kiếm 57 00:02:36,010 --> 00:02:38,040 có thể cần phải đoán xem bạn đang tìm kiếm điều gì. 58 00:02:38,930 --> 00:02:41,360 Mỗi công cụ tìm kiếm sẽ dùng thuật toán riêng của mình 59 00:02:41,360 --> 00:02:44,230 để xếp hạng các trang dựa trên điều nó nghĩ là bạn muốn tìm. 60 00:02:44,930 --> 00:02:47,660 Thuật toán xếp hạng của công cụ tìm kiếm có thể sẽ kiểm xem 61 00:02:47,990 --> 00:02:50,360 liệu từ khóa tìm kiếm của bạn có xuất hiện trên tiêu đề của trang không, 62 00:02:50,900 --> 00:02:53,820 nó có thể sẽ kiểm tra xem liệu tất cả các từ có xuất hiện bên cạnh nhau không 63 00:02:54,520 --> 00:02:57,020 hay có con số bất kỳ trong phép tính khác 64 00:02:57,020 --> 00:02:58,610 có thể giúp xác định tốt hơn 65 00:02:58,670 --> 00:03:01,420 trang nào là trang bạn sẽ muốn xem và trang nào thì không. 66 00:03:02,960 --> 00:03:04,960 Google đã phát minh ra thuật toán nổi tiếng nhất 67 00:03:04,960 --> 00:03:08,530 để chọn ra các kết quả liên quan nhất cho một lệnh tìm kiếm bằng cách tính đến việc 68 00:03:08,560 --> 00:03:11,230 có bao nhiêu trang web khác liên kết với một trang bất kỳ. 69 00:03:11,830 --> 00:03:14,140 Lập luận ở đây chính là nếu nhiều trang web cho rằng 70 00:03:14,140 --> 00:03:15,660 trang web đó thú vị 71 00:03:15,660 --> 00:03:17,940 thì rất có thể đó chính là trang bạn đang tìm kiếm. 72 00:03:18,190 --> 00:03:20,020 Thuật toán này được gọi là xếp hạng Page, 73 00:03:20,590 --> 00:03:22,330 không phải vì nó xếp hạng các trang web 74 00:03:22,570 --> 00:03:25,210 mà vì nó được đặt theo tên của người phát minh ra nó, Larry Page, 75 00:03:25,480 --> 00:03:27,333 một trong những nhà sáng lập của Google. 76 00:03:27,940 --> 00:03:30,520 Vì trang web thường có doanh thu khi bạn truy cập 77 00:03:30,820 --> 00:03:32,950 nên các trang rác đang không ngừng tìm cách 78 00:03:32,950 --> 00:03:35,741 lợi dụng thuật toán tìm kiếm để các trang ấy 79 00:03:35,742 --> 00:03:37,931 trở thành kết quả xuất hiện trước. 80 00:03:38,260 --> 00:03:40,750 Các công cụ tìm kiếm thường xuyên cập nhật thuật toán của mình 81 00:03:40,750 --> 00:03:44,296 để ngăn các trang giả mạo hoặc không đáng tin cậy đạt xếp hạng cao. 82 00:03:44,680 --> 00:03:47,350 Hơn hết thảy, chính bạn là người cần để mắt đến 83 00:03:47,500 --> 00:03:49,450 những trang thiếu tin cậy này 84 00:03:49,690 --> 00:03:52,990 bằng cách nhìn vào địa chỉ web và đảm bảo đó là nguồn đáng tin cậy. 85 00:03:53,680 --> 00:03:55,390 Các chương trình tìm kiếm luôn phát triển 86 00:03:55,420 --> 00:03:58,420 để cải thiện các thuật toán nhằm cho ra các kết quả chính xác hơn, 87 00:03:58,540 --> 00:04:00,460 nhanh hơn so với đối thủ cạnh tranh. 88 00:04:01,000 --> 00:04:03,100 Các công cụ tìm kiếm ngày nay thậm chí còn dùng thông tin 89 00:04:03,100 --> 00:04:06,820 bạn chưa biểu đạt rõ ràng để giúp bạn khoanh vùng tìm kiếm. 90 00:04:07,150 --> 00:04:10,120 Ví dụ như: Nếu bạn tìm công viên cho chó, 91 00:04:10,240 --> 00:04:12,190 nhiều công cụ tìm kiếm sẽ cho bạn kết quả 92 00:04:12,190 --> 00:04:13,840 về tất cả các công viên cho chó lân cận 93 00:04:14,080 --> 00:04:16,260 mặc dù bạn không hề gõ vào địa điểm của mình. 94 00:04:17,800 --> 00:04:20,530 Công cụ tìm kiếm hiện đại không chỉ đơn thuần hiểu 95 00:04:20,530 --> 00:04:22,060 về từ ngữ có trên trang 96 00:04:22,300 --> 00:04:24,970 mà còn hiểu ý nghĩa thực sự của chúng để tìm ra kết quả 97 00:04:24,970 --> 00:04:26,750 phù hợp nhất mà bạn đang tìm kiếm. 98 00:04:27,130 --> 00:04:29,980 Ví dụ: Nếu bạn tìm "fast pitcher", 99 00:04:30,280 --> 00:04:32,300 nó sẽ hiểu là bạn đang tìm kiếm một vận động viên. 100 00:04:32,500 --> 00:04:34,450 Nhưng nếu bạn tìm "large pitcher", 101 00:04:34,450 --> 00:04:36,730 nó sẽ tìm kiếm những lựa chọn cho căn bếp của bạn. 102 00:04:38,420 --> 00:04:41,910 Để hiểu hơn về từ ngữ, chúng ta dùng đến cái gọi là máy học, 103 00:04:41,910 --> 00:04:43,985 một loại trí thông minh nhân tạo. 104 00:04:43,985 --> 00:04:46,050 Nó cho phép thuật toán tìm kiếm không chỉ 105 00:04:46,090 --> 00:04:48,400 tìm kiếm các chữ cái hoặc từ ngữ đơn lẻ trên trang 106 00:04:48,400 --> 00:04:51,280 mà còn hiểu được ý nghĩa ẩn sâu của từ ngữ. 107 00:04:53,690 --> 00:04:55,850 Internet đang phát triển mạnh mẽ, 108 00:04:56,210 --> 00:04:59,810 nhưng nếu đội ngũ thiết kế công cụ tìm kiếm làm việc hiệu quả, 109 00:05:00,080 --> 00:05:04,090 bạn sẽ chỉ cần gõ vài phím để có được thông tin mình cần.