The Internet: How Search Works
-
0:06 - 0:07嗨,我是约翰(John)
-
0:08 - 0:10我带领着Google的搜寻和机器学习团队。
-
0:12 - 0:14我认为这是令人惊奇与振奋的一件事:
-
0:14 - 0:16全世界的人们会使用搜索引擎
-
0:16 - 0:19来询问琐碎小事
-
0:19 - 0:21与重要问题
-
0:21 - 0:23所以尽我们所能地提供人们最好的答案,
-
0:23 - 0:25成为了我们的重责大任。
-
0:27 - 0:31嗨,我是Akshaya,我任职于Bing搜索小组。
-
0:31 - 0:33有很多时候,
-
0:33 - 0:36我们进行人工智慧与机器学习的研究,
-
0:36 - 0:39但我们必须深刻了解使用者会如何运用
-
0:39 - 0:42因为最终,我们希望能对社会产生好的影响。
-
0:44 - 0:45问一个简单的问题:
-
0:46 - 0:48旅行到火星要花多久时间呢?
-
0:49 - 0:51这些结果是从哪里来的?
-
0:51 - 0:54为什么这个结果排在另一个结果的前面呢?
-
0:56 - 0:58好。我们一起深入了解:
-
0:58 - 1:00搜寻引擎如何将你的问题转化成这样的结果。
-
1:01 - 1:03你需要知道的第一件事:当你进行搜寻时,
-
1:03 - 1:06搜寻引擎不是即时地
-
1:06 - 1:08到互联网上去找寻你要的信息。
-
1:08 - 1:11那是因为互联网上有超过数十亿的网站
-
1:11 - 1:14而且每一分钟还有数以百计的网站被创造出来。
-
1:14 - 1:16如果搜寻引擎,
-
1:16 - 1:19必须到每一个网站来找你要的信息,
-
1:19 - 1:20这件事情就会永远无法完成。
-
1:20 - 1:22为了让你的搜寻更加快速,
-
1:22 - 1:25搜寻引擎一直不断地扫描网站
-
1:25 - 1:29提前记录下来,以后可能对你的搜寻有帮助的信息。
-
1:29 - 1:31这样一来,当你搜寻有关「旅行到火星」时
-
1:32 - 1:34搜寻引擎已经拥有了即时能够
-
1:34 - 1:36给你答案所需要的信息。
-
1:36 - 1:38它是这样运作的:
-
1:38 - 1:42互联网是众多网页所连接而成的网。网页间以超链接彼此相连。
-
1:42 - 1:45搜寻引擎一直不断地执行一个名为「蜘蛛」的程序,
-
1:45 - 1:47这个程序在这些网页中爬行,
-
1:47 - 1:49搜集这些网页的信息。
-
1:50 - 1:52每次找到一个超链接,
-
1:52 - 1:55它就会顺着这个连接,
-
1:55 - 1:57拜访在互联网中能够找到的每一个页面。
-
1:57 - 1:59蜘蛛对于每一个它拜访的页面,
-
1:59 - 2:02都会记录所有搜寻所需的信息。
-
2:02 - 2:06这些纪录会加到一个名为「搜寻索引」的特殊数据库。
-
2:07 - 2:10现在,让我们回到先前的搜寻,
-
2:10 - 2:12看看我们能不能弄清楚
-
2:12 - 2:13搜寻引擎是如何产生出这些结果。
-
2:14 - 2:16当你问「旅行到火星需要多长时间」时,
-
2:17 - 2:19搜索引擎会用这句话里的每一个字,
-
2:19 - 2:21到搜寻索引中检查,
-
2:21 - 2:24来马上得到互联网上所有包含这些字的网页清单
-
2:25 - 2:27但是,只是查看这些搜寻字
-
2:27 - 2:29会得到数以百万的网页
-
2:29 - 2:31所以搜寻引擎必须能够判定对你最适当的页面,
-
2:31 - 2:33来优先显示。
-
2:33 - 2:36这就是最微妙的地方,
-
2:36 - 2:38因为搜寻引擎可能需要猜测你在找什么。
-
2:39 - 2:41每个搜索引擎会使用自己的算法,
-
2:41 - 2:44根据它认为你所需要的结果,来排序这些网页。
-
2:45 - 2:48搜索引擎的排序算法可能会检查:
-
2:48 - 2:50你搜寻的字词是否出现在网页的标题上
-
2:51 - 2:54它可能会检查这些字词是否彼此相邻出现
-
2:55 - 2:57以及其他的计算方式,
-
2:57 - 2:59来帮助它能更准确的判断
-
2:59 - 3:01哪些是你想看的网页、哪些不是。
-
3:03 - 3:05对于搜寻选出最相关的结果,Google发明了最著名的算法:
-
3:05 - 3:09它是将「有多少网页连结到特定页面」纳入计算
-
3:09 - 3:11这里的想法是:
-
3:12 - 3:14如果有很多网站认为
-
3:14 - 3:16这一个页面很有意思
-
3:16 - 3:18那么它很有可能就是你正在找寻的那个网页。
-
3:18 - 3:20这个算法称为:「佩奇排名(Page Rank)」。
-
3:21 - 3:22不是因为它排名网页,
-
3:23 - 3:25而是因为它是以发明者,拉里佩奇(Larry Page)来命名的。
-
3:25 - 3:27佩奇是Google的创始人之一。
-
3:28 - 3:31由于,当你查看网页时,网站往往能因此获得收入,
-
3:31 - 3:33垃圾邮件发送者便不断地尝试找到欺骗搜寻算法的方式,
-
3:33 - 3:36来让他们的网页能够在搜寻结果中,
-
3:36 - 3:38有更高的排名
-
3:38 - 3:41搜索引擎定期地更新算法
-
3:41 - 3:44来防止伪造或不受信任的网站来获得高排名。
-
3:45 - 3:47到最后,
-
3:48 - 3:49还是需要由你来留意这些不受信任的网页
-
3:50 - 3:53你可以查看网址,并确认它有个可靠的来源。
-
3:54 - 3:55搜索程序不断地演进,
-
3:55 - 3:58改善算法来回传
-
3:59 - 4:00比竞争对手更好、更快的结果。
-
4:01 - 4:03现今的搜寻引擎,
-
4:03 - 4:07甚至运用你没有明确提供的信息,来帮助你缩小搜寻的范围。
-
4:07 - 4:10例如,你搜寻可以遛狗的公园,
-
4:10 - 4:12许多搜索引擎会有很多搜寻结果
-
4:12 - 4:14如所有在你附近的可以遛狗的公园,
-
4:14 - 4:16即便你没有输入你的位置。
-
4:18 - 4:21现代的搜索引擎,
-
4:21 - 4:22能理解的不仅是网页上的文字,
-
4:22 - 4:25还有实际上的意义
-
4:25 - 4:27为你找出最符合你正在找寻的东西。
-
4:27 - 4:30例如,如果你搜索「速球投手(fast pitcher)」,
-
4:30 - 4:32它会知道你正在寻找的是运动员,
-
4:32 - 4:34如果你搜寻的是「大水壶(large pitcher)」,
-
4:34 - 4:37它会找寻到是与厨房用途的选择。
-
4:38 - 4:42为了更好地理解这些字词,我们运用了机器学习,
-
4:42 - 4:44这是人工智慧的一种。
-
4:44 - 4:46它能够让搜索算法不只是找寻
-
4:46 - 4:48网页中的个别字母或字词
-
4:48 - 4:51还能了解这些字词背后的含义。
-
4:54 - 4:56互联网不断成倍地增长,
-
4:56 - 5:00但如果设计搜寻引擎的团队能帮助我们做正确的判断,
-
5:00 - 5:04你所需要的信息离我们的距离,就只有几次按键之遥。
Tomedes edited Chinese, Simplified subtitles for The Internet: How Search Works | ||
effie wang edited Chinese, Simplified subtitles for The Internet: How Search Works | ||
effie wang edited Chinese, Simplified subtitles for The Internet: How Search Works | ||
effie wang edited Chinese, Simplified subtitles for The Internet: How Search Works |