Xin chào, tôi là John.
Tôi là trưởng nhóm tìm kiếm
và máy học tại Google.
Tôi thật sự thấy phấn khích trước việc
mọi người từ khắp nơi trên thế giới
tìm đến các công cụ tìm kiếm để
hỏi những điều vụn vặt
cũng như những điều thực sự lớn lao.
Vậy nên, trách nhiệm to lớn của
chúng tôi là mang đến cho họ
câu trả lời tốt nhất.
Xin chào, tôi là Akshaya, và tôi làm
trong đội ngũ tìm kiếm của Bing.
Có rất nhiều thời điểm khi
chúng tôi bắt đầu nghiên cứu về
trí thông minh nhân tạo
và máy học,
nhưng chúng tôi phải chú ý đến
cách người dùng sẽ sử dụng
bởi lẽ suy cho cùng,
chúng tôi muốn tác động đến xã hội.
Hãy thử hỏi một câu đơn giản thôi.
Mất bao lâu để bay lên Sao Hỏa?
Những kết quả này đến từ đâu
và tại sao kết quả này
được liệt kê trước kết quả kia?
Giờ thì hãy đào sâu và
xem thử công cụ tìm kiếm
biến yêu cầu của bạn
thành kết quả như thế nào.
Điều đầu tiên bạn cần phải biết
chính là khi bạn tìm kiếm,
công cụ tìm kiếm thực ra không
truy cập vào mạng lưới toàn cầu
để chạy lệnh tìm kiếm của bạn
theo thời gian thực.
Và lý do chính là vì có
hơn một tỷ trang web
trên Internet và hàng trăm
trang web mới tạo mỗi phút.
Vậy nên nếu công cụ tìm kiếm
phải tìm hết
từng trang một để
tìm ra câu trả lời cho bạn
thì chắc còn lâu mới xong.
Cho nên, để bạn tìm kiếm nhanh hơn,
công cụ tìm kiếm sẽ liên tục
quét trước các trang web
để ghi nhận thông tin có thể
hỗ trợ bạn tìm kiếm sau này.
Bằng cách đó, khi bạn tìm kiếm
về việc bay lên Sao Hỏa,
công cụ tìm kiếm
đã có cái dữ liệu cần thiết
để cho bạn câu trả lời
theo thời gian thực.
Đây là cách nó hoạt động.
Internet là một mạng lưới các trang
được kết nối với nhau bằng các siêu liên kết.
Công cụ tìm kiếm
liên tục chạy một chương trình
mang tên Spider, truy cập hết
những trang web này
để thu thập thông tin về chúng.
Mỗi khi nó tìm thấy một siêu liên kết,
nó sẽ đi theo liên kết ấy cho đến khi
đã truy cập hết tất cả các trang
nó có thể tìm thấy trên toàn bộ
Internet.
Với mỗi trang spider truy cập,
nó sẽ ghi nhận mọi thông tin
có thể cần thiết cho việc tìm kiếm
bằng cách thêm thông tin đó vào
cơ sở dữ liệu đặc biệt mang tên danh mục tìm kiếm.
Bây giờ chúng ta hãy quay lại
lệnh tìm kiếm trước đó
và xem thử liệu chúng ta có thể
hiểu được cách công cụ tìm kiếm
cho ra các kết quả.
Khi bạn hỏi mất bao lâu để
bay lên Sao Hỏa,
công cụ tìm kiếm sẽ tìm kiếm
từng từ một trong số đó
trong danh mục tìm kiếm để
ngay lập tức lên danh sách
tất cả các trang trên
Internet có chứa những từ đó.
Nhưng chỉ dựa vào những
từ tìm kiếm này thôi
thì sẽ cho ra hàng triệu trang,
vậy nên, công cụ tìm kiếm cần
có khả năng xác định
kết quả phù hợp nhất để đưa ra cho bạn.
Đây là lúc mọi chuyện trở nên khó khăn
bởi lẽ công cụ tìm kiếm
có thể cần phải đoán xem
bạn đang tìm kiếm điều gì.
Mỗi công cụ tìm kiếm
sẽ dùng thuật toán riêng của mình
để xếp hạng các trang dựa trên
điều nó nghĩ là bạn muốn tìm.
Thuật toán xếp hạng của
công cụ tìm kiếm có thể sẽ kiểm xem
liệu từ khóa tìm kiếm của bạn có xuất hiện
trên tiêu đề của trang không,
nó có thể sẽ kiểm tra xem liệu tất cả
các từ có xuất hiện bên cạnh nhau không
hay có con số bất kỳ trong phép tính khác
có thể giúp xác định tốt hơn
trang nào là trang bạn sẽ muốn
xem và trang nào thì không.
Google đã phát minh ra
thuật toán nổi tiếng nhất
để chọn ra các kết quả liên quan nhất
cho một lệnh tìm kiếm bằng cách tính đến việc
có bao nhiêu trang web khác
liên kết với một trang bất kỳ.
Lập luận ở đây chính là nếu
nhiều trang web cho rằng
trang web đó thú vị
thì rất có thể đó chính là trang
bạn đang tìm kiếm.
Thuật toán này được gọi là
xếp hạng Page,
không phải vì nó xếp hạng
các trang web
mà vì nó được đặt theo tên
của người phát minh ra nó, Larry Page,
một trong những
nhà sáng lập của Google.
Vì trang web thường có
doanh thu khi bạn truy cập
nên các trang rác đang
không ngừng tìm cách
lợi dụng thuật toán tìm kiếm
để các trang ấy
trở thành kết quả xuất hiện trước.
Các công cụ tìm kiếm thường xuyên
cập nhật thuật toán của mình
để ngăn các trang giả mạo
hoặc không đáng tin cậy đạt xếp hạng cao.
Hơn hết thảy, chính bạn là người
cần để mắt đến
những trang thiếu tin cậy này
bằng cách nhìn vào địa chỉ web và
đảm bảo đó là nguồn đáng tin cậy.
Các chương trình tìm kiếm luôn phát triển
để cải thiện các thuật toán
nhằm cho ra các kết quả chính xác hơn,
nhanh hơn so với đối thủ cạnh tranh.
Các công cụ tìm kiếm ngày nay
thậm chí còn dùng thông tin
bạn chưa biểu đạt rõ ràng
để giúp bạn khoanh vùng tìm kiếm.
Ví dụ như:
Nếu bạn tìm công viên cho chó,
nhiều công cụ tìm kiếm
sẽ cho bạn kết quả
về tất cả các công viên cho chó lân cận
mặc dù bạn không hề
gõ vào địa điểm của mình.
Công cụ tìm kiếm hiện đại
không chỉ đơn thuần hiểu
về từ ngữ có trên trang
mà còn hiểu ý nghĩa thực sự của chúng
để tìm ra kết quả
phù hợp nhất mà bạn đang tìm kiếm.
Ví dụ: Nếu bạn tìm
"fast pitcher",
nó sẽ hiểu là bạn đang
tìm kiếm một vận động viên.
Nhưng nếu bạn tìm "large pitcher",
nó sẽ tìm kiếm những lựa chọn
cho căn bếp của bạn.
Để hiểu hơn về từ ngữ,
chúng ta dùng đến cái gọi là máy học,
một loại trí thông minh nhân tạo.
Nó cho phép
thuật toán tìm kiếm không chỉ
tìm kiếm các chữ cái
hoặc từ ngữ đơn lẻ trên trang
mà còn hiểu được
ý nghĩa ẩn sâu của từ ngữ.
Internet đang phát triển mạnh mẽ,
nhưng nếu đội ngũ thiết kế
công cụ tìm kiếm làm việc hiệu quả,
bạn sẽ chỉ cần gõ vài phím
để có được thông tin mình cần.