1 00:00:06,070 --> 00:00:07,120 嗨,我是约翰(John) 2 00:00:07,510 --> 00:00:10,140 我带领着Google的搜寻和机器学习团队。 3 00:00:12,130 --> 00:00:14,230 我认为这是令人惊奇与振奋的一件事: 4 00:00:14,230 --> 00:00:16,214 全世界的人们会使用搜索引擎 5 00:00:16,215 --> 00:00:19,160 来询问琐碎小事 6 00:00:19,160 --> 00:00:20,930 与重要问题 7 00:00:20,930 --> 00:00:23,450 所以尽我们所能地提供人们最好的答案, 8 00:00:23,450 --> 00:00:24,864 成为了我们的重责大任。 9 00:00:26,710 --> 00:00:30,610 嗨,我是Akshaya,我任职于Bing搜索小组。 10 00:00:30,910 --> 00:00:33,190 有很多时候, 11 00:00:33,190 --> 00:00:35,800 我们进行人工智慧与机器学习的研究, 12 00:00:35,830 --> 00:00:39,010 但我们必须深刻了解使用者会如何运用 13 00:00:39,140 --> 00:00:42,390 因为最终,我们希望能对社会产生好的影响。 14 00:00:43,780 --> 00:00:45,400 问一个简单的问题: 15 00:00:45,820 --> 00:00:48,070 旅行到火星要花多久时间呢? 16 00:00:49,330 --> 00:00:50,950 这些结果是从哪里来的? 17 00:00:51,370 --> 00:00:54,100 为什么这个结果排在另一个结果的前面呢? 18 00:00:55,700 --> 00:00:58,150 好。我们一起深入了解: 19 00:00:58,150 --> 00:00:59,860 搜寻引擎如何将你的问题转化成这样的结果。 20 00:01:00,690 --> 00:01:03,360 你需要知道的第一件事:当你进行搜寻时, 21 00:01:03,430 --> 00:01:06,480 搜寻引擎不是即时地 22 00:01:06,480 --> 00:01:08,010 到互联网上去找寻你要的信息。 23 00:01:08,140 --> 00:01:10,610 那是因为互联网上有超过数十亿的网站 24 00:01:10,610 --> 00:01:14,140 而且每一分钟还有数以百计的网站被创造出来。 25 00:01:14,140 --> 00:01:16,210 如果搜寻引擎, 26 00:01:16,240 --> 00:01:18,690 必须到每一个网站来找你要的信息, 27 00:01:18,690 --> 00:01:20,120 这件事情就会永远无法完成。 28 00:01:20,500 --> 00:01:21,940 为了让你的搜寻更加快速, 29 00:01:21,970 --> 00:01:24,940 搜寻引擎一直不断地扫描网站 30 00:01:25,420 --> 00:01:28,560 提前记录下来,以后可能对你的搜寻有帮助的信息。 31 00:01:28,930 --> 00:01:31,270 这样一来,当你搜寻有关「旅行到火星」时 32 00:01:31,630 --> 00:01:33,700 搜寻引擎已经拥有了即时能够 33 00:01:33,700 --> 00:01:35,728 给你答案所需要的信息。 34 00:01:36,250 --> 00:01:37,540 它是这样运作的: 35 00:01:37,900 --> 00:01:42,010 互联网是众多网页所连接而成的网。网页间以超链接彼此相连。 36 00:01:42,400 --> 00:01:44,680 搜寻引擎一直不断地执行一个名为「蜘蛛」的程序, 37 00:01:47,380 --> 00:01:49,040 搜集这些网页的信息。 38 00:01:44,680 --> 00:01:47,380 这个程序在这些网页中爬行, 39 00:01:49,780 --> 00:01:51,550 每次找到一个超链接, 40 00:01:52,090 --> 00:01:55,000 它就会顺着这个连接, 41 00:01:55,030 --> 00:01:57,240 拜访在互联网中能够找到的每一个页面。 42 00:01:57,335 --> 00:01:59,170 蜘蛛对于每一个它拜访的页面, 43 00:01:59,200 --> 00:02:02,320 都会记录所有搜寻所需的信息。 44 00:02:02,500 --> 00:02:05,650 这些纪录会加到一个名为「搜寻索引」的特殊数据库。 45 00:02:07,166 --> 00:02:09,530 现在,让我们回到先前的搜寻, 46 00:02:09,590 --> 00:02:11,990 看看我们能不能弄清楚 47 00:02:11,990 --> 00:02:13,333 搜寻引擎是如何产生出这些结果。 48 00:02:13,640 --> 00:02:16,460 当你问「旅行到火星需要多长时间」时, 49 00:02:16,640 --> 00:02:18,860 搜索引擎会用这句话里的每一个字, 50 00:02:18,920 --> 00:02:21,410 到搜寻索引中检查, 51 00:02:21,410 --> 00:02:24,500 来马上得到互联网上所有包含这些字的网页清单 52 00:02:24,890 --> 00:02:26,870 但是,只是查看这些搜寻字 53 00:02:26,870 --> 00:02:28,760 会得到数以百万的网页 54 00:02:28,760 --> 00:02:31,110 所以搜寻引擎必须能够判定对你最适当的页面, 55 00:02:31,110 --> 00:02:33,120 来优先显示。 56 00:02:33,340 --> 00:02:36,010 这就是最微妙的地方, 57 00:02:36,010 --> 00:02:38,040 因为搜寻引擎可能需要猜测你在找什么。 58 00:02:38,930 --> 00:02:41,360 每个搜索引擎会使用自己的算法, 59 00:02:41,360 --> 00:02:44,230 根据它认为你所需要的结果,来排序这些网页。 60 00:02:44,930 --> 00:02:47,660 搜索引擎的排序算法可能会检查: 61 00:02:47,990 --> 00:02:50,360 你搜寻的字词是否出现在网页的标题上 62 00:02:50,900 --> 00:02:53,820 它可能会检查这些字词是否彼此相邻出现 63 00:02:54,520 --> 00:02:57,020 以及其他的计算方式, 64 00:02:57,020 --> 00:02:58,610 来帮助它能更准确的判断 65 00:02:58,670 --> 00:03:01,420 哪些是你想看的网页、哪些不是。 66 00:03:02,960 --> 00:03:04,960 对于搜寻选出最相关的结果,Google发明了最著名的算法: 67 00:03:04,960 --> 00:03:08,530 它是将「有多少网页连结到特定页面」纳入计算 68 00:03:08,560 --> 00:03:11,230 这里的想法是: 69 00:03:11,830 --> 00:03:14,140 如果有很多网站认为 70 00:03:14,140 --> 00:03:15,660 这一个页面很有意思 71 00:03:15,660 --> 00:03:17,940 那么它很有可能就是你正在找寻的那个网页。 72 00:03:18,190 --> 00:03:20,020 这个算法称为:「佩奇排名(Page Rank)」。 73 00:03:20,590 --> 00:03:22,330 不是因为它排名网页, 74 00:03:22,570 --> 00:03:25,210 而是因为它是以发明者,拉里佩奇(Larry Page)来命名的。 75 00:03:25,480 --> 00:03:27,333 佩奇是Google的创始人之一。 76 00:03:27,940 --> 00:03:30,520 由于,当你查看网页时,网站往往能因此获得收入, 77 00:03:30,820 --> 00:03:32,950 垃圾邮件发送者便不断地尝试找到欺骗搜寻算法的方式, 78 00:03:32,950 --> 00:03:35,741 来让他们的网页能够在搜寻结果中, 79 00:03:35,742 --> 00:03:37,931 有更高的排名 80 00:03:38,260 --> 00:03:40,750 搜索引擎定期地更新算法 81 00:03:40,750 --> 00:03:44,296 来防止伪造或不受信任的网站来获得高排名。 82 00:03:44,680 --> 00:03:47,350 到最后, 83 00:03:47,500 --> 00:03:49,450 还是需要由你来留意这些不受信任的网页 84 00:03:49,690 --> 00:03:52,990 你可以查看网址,并确认它有个可靠的来源。 85 00:03:53,680 --> 00:03:55,390 搜索程序不断地演进, 86 00:03:55,420 --> 00:03:58,420 改善算法来回传 87 00:03:58,540 --> 00:04:00,460 比竞争对手更好、更快的结果。 88 00:04:01,000 --> 00:04:03,100 现今的搜寻引擎, 89 00:04:03,100 --> 00:04:06,820 甚至运用你没有明确提供的信息,来帮助你缩小搜寻的范围。 90 00:04:07,150 --> 00:04:10,120 例如,你搜寻可以遛狗的公园, 91 00:04:10,240 --> 00:04:12,190 许多搜索引擎会有很多搜寻结果 92 00:04:12,190 --> 00:04:13,840 如所有在你附近的可以遛狗的公园, 93 00:04:14,080 --> 00:04:16,260 即便你没有输入你的位置。 94 00:04:17,800 --> 00:04:20,530 现代的搜索引擎, 95 00:04:20,530 --> 00:04:22,060 能理解的不仅是网页上的文字, 96 00:04:22,300 --> 00:04:24,970 还有实际上的意义 97 00:04:24,970 --> 00:04:26,750 为你找出最符合你正在找寻的东西。 98 00:04:27,130 --> 00:04:29,980 例如,如果你搜索「速球投手(fast pitcher)」, 99 00:04:30,280 --> 00:04:32,300 它会知道你正在寻找的是运动员, 100 00:04:32,500 --> 00:04:34,450 如果你搜寻的是「大水壶(large pitcher)」, 101 00:04:34,450 --> 00:04:36,730 它会找寻到是与厨房用途的选择。 102 00:04:38,420 --> 00:04:41,910 为了更好地理解这些字词,我们运用了机器学习, 103 00:04:41,910 --> 00:04:43,985 这是人工智慧的一种。 104 00:04:43,985 --> 00:04:46,050 它能够让搜索算法不只是找寻 105 00:04:46,090 --> 00:04:48,400 网页中的个别字母或字词 106 00:04:48,400 --> 00:04:51,280 还能了解这些字词背后的含义。 107 00:04:53,690 --> 00:04:55,850 互联网不断成倍地增长, 108 00:04:56,210 --> 00:04:59,810 但如果设计搜寻引擎的团队能帮助我们做正确的判断, 109 00:05:00,080 --> 00:05:04,090 你所需要的信息离我们的距离,就只有几次按键之遥。