-
Xin chào, tôi là John.
-
Tôi là trưởng nhóm tìm kiếm
và máy học tại Google.
-
Tôi thật sự thấy phấn khích trước việc
-
mọi người từ khắp nơi trên thế giới
-
tìm đến các công cụ tìm kiếm để
hỏi những điều vụn vặt
-
cũng như những điều thực sự lớn lao.
-
Vậy nên, trách nhiệm to lớn của
chúng tôi là mang đến cho họ
-
câu trả lời tốt nhất.
-
Xin chào, tôi là Akshaya, và tôi làm
trong đội ngũ tìm kiếm của Bing.
-
Có rất nhiều thời điểm khi
chúng tôi bắt đầu nghiên cứu về
-
trí thông minh nhân tạo
và máy học,
-
nhưng chúng tôi phải chú ý đến
cách người dùng sẽ sử dụng
-
bởi lẽ suy cho cùng,
chúng tôi muốn tác động đến xã hội.
-
Hãy thử hỏi một câu đơn giản thôi.
-
Mất bao lâu để bay lên Sao Hỏa?
-
Những kết quả này đến từ đâu
-
và tại sao kết quả này
được liệt kê trước kết quả kia?
-
Giờ thì hãy đào sâu và
xem thử công cụ tìm kiếm
-
biến yêu cầu của bạn
thành kết quả như thế nào.
-
Điều đầu tiên bạn cần phải biết
chính là khi bạn tìm kiếm,
-
công cụ tìm kiếm thực ra không
truy cập vào mạng lưới toàn cầu
-
để chạy lệnh tìm kiếm của bạn
theo thời gian thực.
-
Và lý do chính là vì có
hơn một tỷ trang web
-
trên Internet và hàng trăm
trang web mới tạo mỗi phút.
-
Vậy nên nếu công cụ tìm kiếm
phải tìm hết
-
từng trang một để
tìm ra câu trả lời cho bạn
-
thì chắc còn lâu mới xong.
-
Cho nên, để bạn tìm kiếm nhanh hơn,
-
công cụ tìm kiếm sẽ liên tục
quét trước các trang web
-
để ghi nhận thông tin có thể
hỗ trợ bạn tìm kiếm sau này.
-
Bằng cách đó, khi bạn tìm kiếm
về việc bay lên Sao Hỏa,
-
công cụ tìm kiếm
đã có cái dữ liệu cần thiết
-
để cho bạn câu trả lời
theo thời gian thực.
-
Đây là cách nó hoạt động.
-
Internet là một mạng lưới các trang
được kết nối với nhau bằng các siêu liên kết.
-
Công cụ tìm kiếm
liên tục chạy một chương trình
-
mang tên Spider, truy cập hết
những trang web này
-
để thu thập thông tin về chúng.
-
Mỗi khi nó tìm thấy một siêu liên kết,
-
nó sẽ đi theo liên kết ấy cho đến khi
đã truy cập hết tất cả các trang
-
nó có thể tìm thấy trên toàn bộ
Internet.
-
Với mỗi trang spider truy cập,
-
nó sẽ ghi nhận mọi thông tin
có thể cần thiết cho việc tìm kiếm
-
bằng cách thêm thông tin đó vào
cơ sở dữ liệu đặc biệt mang tên danh mục tìm kiếm.
-
Bây giờ chúng ta hãy quay lại
lệnh tìm kiếm trước đó
-
và xem thử liệu chúng ta có thể
hiểu được cách công cụ tìm kiếm
-
cho ra các kết quả.
-
Khi bạn hỏi mất bao lâu để
bay lên Sao Hỏa,
-
công cụ tìm kiếm sẽ tìm kiếm
từng từ một trong số đó
-
trong danh mục tìm kiếm để
ngay lập tức lên danh sách
-
tất cả các trang trên
Internet có chứa những từ đó.
-
Nhưng chỉ dựa vào những
từ tìm kiếm này thôi
-
thì sẽ cho ra hàng triệu trang,
-
vậy nên, công cụ tìm kiếm cần
có khả năng xác định
-
kết quả phù hợp nhất để đưa ra cho bạn.
-
Đây là lúc mọi chuyện trở nên khó khăn
bởi lẽ công cụ tìm kiếm
-
có thể cần phải đoán xem
bạn đang tìm kiếm điều gì.
-
Mỗi công cụ tìm kiếm
sẽ dùng thuật toán riêng của mình
-
để xếp hạng các trang dựa trên
điều nó nghĩ là bạn muốn tìm.
-
Thuật toán xếp hạng của
công cụ tìm kiếm có thể sẽ kiểm xem
-
liệu từ khóa tìm kiếm của bạn có xuất hiện
trên tiêu đề của trang không,
-
nó có thể sẽ kiểm tra xem liệu tất cả
các từ có xuất hiện bên cạnh nhau không
-
hay có con số bất kỳ trong phép tính khác
-
có thể giúp xác định tốt hơn
-
trang nào là trang bạn sẽ muốn
xem và trang nào thì không.
-
Google đã phát minh ra
thuật toán nổi tiếng nhất
-
để chọn ra các kết quả liên quan nhất
cho một lệnh tìm kiếm bằng cách tính đến việc
-
có bao nhiêu trang web khác
liên kết với một trang bất kỳ.
-
Lập luận ở đây chính là nếu
nhiều trang web cho rằng
-
trang web đó thú vị
-
thì rất có thể đó chính là trang
bạn đang tìm kiếm.
-
Thuật toán này được gọi là
xếp hạng Page,
-
không phải vì nó xếp hạng
các trang web
-
mà vì nó được đặt theo tên
của người phát minh ra nó, Larry Page,
-
một trong những
nhà sáng lập của Google.
-
Vì trang web thường có
doanh thu khi bạn truy cập
-
nên các trang rác đang
không ngừng tìm cách
-
lợi dụng thuật toán tìm kiếm
để các trang ấy
-
trở thành kết quả xuất hiện trước.
-
Các công cụ tìm kiếm thường xuyên
cập nhật thuật toán của mình
-
để ngăn các trang giả mạo
hoặc không đáng tin cậy đạt xếp hạng cao.
-
Hơn hết thảy, chính bạn là người
cần để mắt đến
-
những trang thiếu tin cậy này
-
bằng cách nhìn vào địa chỉ web và
đảm bảo đó là nguồn đáng tin cậy.
-
Các chương trình tìm kiếm luôn phát triển
-
để cải thiện các thuật toán
nhằm cho ra các kết quả chính xác hơn,
-
nhanh hơn so với đối thủ cạnh tranh.
-
Các công cụ tìm kiếm ngày nay
thậm chí còn dùng thông tin
-
bạn chưa biểu đạt rõ ràng
để giúp bạn khoanh vùng tìm kiếm.
-
Ví dụ như:
Nếu bạn tìm công viên cho chó,
-
nhiều công cụ tìm kiếm
sẽ cho bạn kết quả
-
về tất cả các công viên cho chó lân cận
-
mặc dù bạn không hề
gõ vào địa điểm của mình.
-
Công cụ tìm kiếm hiện đại
không chỉ đơn thuần hiểu
-
về từ ngữ có trên trang
-
mà còn hiểu ý nghĩa thực sự của chúng
để tìm ra kết quả
-
phù hợp nhất mà bạn đang tìm kiếm.
-
Ví dụ: Nếu bạn tìm
"fast pitcher",
-
nó sẽ hiểu là bạn đang
tìm kiếm một vận động viên.
-
Nhưng nếu bạn tìm "large pitcher",
-
nó sẽ tìm kiếm những lựa chọn
cho căn bếp của bạn.
-
Để hiểu hơn về từ ngữ,
chúng ta dùng đến cái gọi là máy học,
-
một loại trí thông minh nhân tạo.
-
Nó cho phép
thuật toán tìm kiếm không chỉ
-
tìm kiếm các chữ cái
hoặc từ ngữ đơn lẻ trên trang
-
mà còn hiểu được
ý nghĩa ẩn sâu của từ ngữ.
-
Internet đang phát triển mạnh mẽ,
-
nhưng nếu đội ngũ thiết kế
công cụ tìm kiếm làm việc hiệu quả,
-
bạn sẽ chỉ cần gõ vài phím
để có được thông tin mình cần.