WEBVTT 00:00:06.070 --> 00:00:07.120 嗨,我是约翰(John) 00:00:07.510 --> 00:00:10.140 我带领着Google的搜寻和机器学习团队。 00:00:12.130 --> 00:00:14.230 我认为这是令人惊奇与振奋的一件事: 00:00:14.230 --> 00:00:16.214 全世界的人们会使用搜索引擎 00:00:16.215 --> 00:00:19.160 来询问琐碎小事 00:00:19.160 --> 00:00:20.930 与重要问题 00:00:20.930 --> 00:00:23.450 所以尽我们所能地提供人们最好的答案, 00:00:23.450 --> 00:00:24.864 成为了我们的重责大任。 00:00:26.710 --> 00:00:30.610 嗨,我是Akshaya,我任职于Bing搜索小组。 00:00:30.910 --> 00:00:33.190 有很多时候, 00:00:33.190 --> 00:00:35.800 我们进行人工智慧与机器学习的研究, 00:00:35.830 --> 00:00:39.010 但我们必须深刻了解使用者会如何运用 00:00:39.140 --> 00:00:42.390 因为最终,我们希望能对社会产生好的影响。 00:00:43.780 --> 00:00:45.400 问一个简单的问题: 00:00:45.820 --> 00:00:48.070 旅行到火星要花多久时间呢? 00:00:49.330 --> 00:00:50.950 这些结果是从哪里来的? 00:00:51.370 --> 00:00:54.100 为什么这个结果排在另一个结果的前面呢? 00:00:55.700 --> 00:00:58.150 好。我们一起深入了解: 00:00:58.150 --> 00:00:59.860 搜寻引擎如何将你的问题转化成这样的结果。 00:01:00.690 --> 00:01:03.360 你需要知道的第一件事:当你进行搜寻时, 00:01:03.430 --> 00:01:06.480 搜寻引擎不是即时地 00:01:06.480 --> 00:01:08.010 到互联网上去找寻你要的信息。 00:01:08.140 --> 00:01:10.610 那是因为互联网上有超过数十亿的网站 00:01:10.610 --> 00:01:14.140 而且每一分钟还有数以百计的网站被创造出来。 00:01:14.140 --> 00:01:16.210 如果搜寻引擎, 00:01:16.240 --> 00:01:18.690 必须到每一个网站来找你要的信息, 00:01:18.690 --> 00:01:20.120 这件事情就会永远无法完成。 00:01:20.500 --> 00:01:21.940 为了让你的搜寻更加快速, 00:01:21.970 --> 00:01:24.940 搜寻引擎一直不断地扫描网站 00:01:25.420 --> 00:01:28.560 提前记录下来,以后可能对你的搜寻有帮助的信息。 00:01:28.930 --> 00:01:31.270 这样一来,当你搜寻有关「旅行到火星」时 00:01:31.630 --> 00:01:33.700 搜寻引擎已经拥有了即时能够 00:01:33.700 --> 00:01:35.728 给你答案所需要的信息。 00:01:36.250 --> 00:01:37.540 它是这样运作的: 00:01:37.900 --> 00:01:42.010 互联网是众多网页所连接而成的网。网页间以超链接彼此相连。 00:01:42.400 --> 00:01:44.680 搜寻引擎一直不断地执行一个名为「蜘蛛」的程序, 00:01:47.380 --> 00:01:49.040 搜集这些网页的信息。 00:01:44.680 --> 00:01:47.380 这个程序在这些网页中爬行, 00:01:49.780 --> 00:01:51.550 每次找到一个超链接, 00:01:52.090 --> 00:01:55.000 它就会顺着这个连接, 00:01:55.030 --> 00:01:57.240 拜访在互联网中能够找到的每一个页面。 00:01:57.335 --> 00:01:59.170 蜘蛛对于每一个它拜访的页面, 00:01:59.200 --> 00:02:02.320 都会记录所有搜寻所需的信息。 00:02:02.500 --> 00:02:05.650 这些纪录会加到一个名为「搜寻索引」的特殊数据库。 00:02:07.166 --> 00:02:09.530 现在,让我们回到先前的搜寻, 00:02:09.590 --> 00:02:11.990 看看我们能不能弄清楚 00:02:11.990 --> 00:02:13.333 搜寻引擎是如何产生出这些结果。 00:02:13.640 --> 00:02:16.460 当你问「旅行到火星需要多长时间」时, 00:02:16.640 --> 00:02:18.860 搜索引擎会用这句话里的每一个字, 00:02:18.920 --> 00:02:21.410 到搜寻索引中检查, 00:02:21.410 --> 00:02:24.500 来马上得到互联网上所有包含这些字的网页清单 00:02:24.890 --> 00:02:26.870 但是,只是查看这些搜寻字 00:02:26.870 --> 00:02:28.760 会得到数以百万的网页 00:02:28.760 --> 00:02:31.110 所以搜寻引擎必须能够判定对你最适当的页面, 00:02:31.110 --> 00:02:33.120 来优先显示。 00:02:33.340 --> 00:02:36.010 这就是最微妙的地方, 00:02:36.010 --> 00:02:38.040 因为搜寻引擎可能需要猜测你在找什么。 00:02:38.930 --> 00:02:41.360 每个搜索引擎会使用自己的算法, 00:02:41.360 --> 00:02:44.230 根据它认为你所需要的结果,来排序这些网页。 00:02:44.930 --> 00:02:47.660 搜索引擎的排序算法可能会检查: 00:02:47.990 --> 00:02:50.360 你搜寻的字词是否出现在网页的标题上 00:02:50.900 --> 00:02:53.820 它可能会检查这些字词是否彼此相邻出现 00:02:54.520 --> 00:02:57.020 以及其他的计算方式, 00:02:57.020 --> 00:02:58.610 来帮助它能更准确的判断 00:02:58.670 --> 00:03:01.420 哪些是你想看的网页、哪些不是。 00:03:02.960 --> 00:03:04.960 对于搜寻选出最相关的结果,Google发明了最著名的算法: 00:03:04.960 --> 00:03:08.530 它是将「有多少网页连结到特定页面」纳入计算 00:03:08.560 --> 00:03:11.230 这里的想法是: 00:03:11.830 --> 00:03:14.140 如果有很多网站认为 00:03:14.140 --> 00:03:15.660 这一个页面很有意思 00:03:15.660 --> 00:03:17.940 那么它很有可能就是你正在找寻的那个网页。 00:03:18.190 --> 00:03:20.020 这个算法称为:「佩奇排名(Page Rank)」。 00:03:20.590 --> 00:03:22.330 不是因为它排名网页, 00:03:22.570 --> 00:03:25.210 而是因为它是以发明者,拉里佩奇(Larry Page)来命名的。 00:03:25.480 --> 00:03:27.333 佩奇是Google的创始人之一。 00:03:27.940 --> 00:03:30.520 由于,当你查看网页时,网站往往能因此获得收入, 00:03:30.820 --> 00:03:32.950 垃圾邮件发送者便不断地尝试找到欺骗搜寻算法的方式, 00:03:32.950 --> 00:03:35.741 来让他们的网页能够在搜寻结果中, 00:03:35.742 --> 00:03:37.931 有更高的排名 00:03:38.260 --> 00:03:40.750 搜索引擎定期地更新算法 00:03:40.750 --> 00:03:44.296 来防止伪造或不受信任的网站来获得高排名。 00:03:44.680 --> 00:03:47.350 到最后, 00:03:47.500 --> 00:03:49.450 还是需要由你来留意这些不受信任的网页 00:03:49.690 --> 00:03:52.990 你可以查看网址,并确认它有个可靠的来源。 00:03:53.680 --> 00:03:55.390 搜索程序不断地演进, 00:03:55.420 --> 00:03:58.420 改善算法来回传 00:03:58.540 --> 00:04:00.460 比竞争对手更好、更快的结果。 00:04:01.000 --> 00:04:03.100 现今的搜寻引擎, 00:04:03.100 --> 00:04:06.820 甚至运用你没有明确提供的信息,来帮助你缩小搜寻的范围。 00:04:07.150 --> 00:04:10.120 例如,你搜寻可以遛狗的公园, 00:04:10.240 --> 00:04:12.190 许多搜索引擎会有很多搜寻结果 00:04:12.190 --> 00:04:13.840 如所有在你附近的可以遛狗的公园, 00:04:14.080 --> 00:04:16.260 即便你没有输入你的位置。 00:04:17.800 --> 00:04:20.530 现代的搜索引擎, 00:04:20.530 --> 00:04:22.060 能理解的不仅是网页上的文字, 00:04:22.300 --> 00:04:24.970 还有实际上的意义 00:04:24.970 --> 00:04:26.750 为你找出最符合你正在找寻的东西。 00:04:27.130 --> 00:04:29.980 例如,如果你搜索「速球投手(fast pitcher)」, 00:04:30.280 --> 00:04:32.300 它会知道你正在寻找的是运动员, 00:04:32.500 --> 00:04:34.450 如果你搜寻的是「大水壶(large pitcher)」, 00:04:34.450 --> 00:04:36.730 它会找寻到是与厨房用途的选择。 00:04:38.420 --> 00:04:41.910 为了更好地理解这些字词,我们运用了机器学习, 00:04:41.910 --> 00:04:43.985 这是人工智慧的一种。 00:04:43.985 --> 00:04:46.050 它能够让搜索算法不只是找寻 00:04:46.090 --> 00:04:48.400 网页中的个别字母或字词 00:04:48.400 --> 00:04:51.280 还能了解这些字词背后的含义。 00:04:53.690 --> 00:04:55.850 互联网不断成倍地增长, 00:04:56.210 --> 00:04:59.810 但如果设计搜寻引擎的团队能帮助我们做正确的判断, 00:05:00.080 --> 00:05:04.090 你所需要的信息离我们的距离,就只有几次按键之遥。