Return to Video

The Internet: How Search Works

  • 0:06 - 0:07
    嗨,我是约翰(John)
  • 0:08 - 0:10
    我带领着Google的搜寻和机器学习团队。
  • 0:12 - 0:14
    我认为这是令人惊奇与振奋的一件事:
  • 0:14 - 0:16
    全世界的人们会使用搜索引擎
  • 0:16 - 0:19
    来询问琐碎小事
  • 0:19 - 0:21
    与重要问题
  • 0:21 - 0:23
    所以尽我们所能地提供人们最好的答案,
  • 0:23 - 0:25
    成为了我们的重责大任。
  • 0:27 - 0:31
    嗨,我是Akshaya,我任职于Bing搜索小组。
  • 0:31 - 0:33
    有很多时候,
  • 0:33 - 0:36
    我们进行人工智慧与机器学习的研究,
  • 0:36 - 0:39
    但我们必须深刻了解使用者会如何运用
  • 0:39 - 0:42
    因为最终,我们希望能对社会产生好的影响。
  • 0:44 - 0:45
    问一个简单的问题:
  • 0:46 - 0:48
    旅行到火星要花多久时间呢?
  • 0:49 - 0:51
    这些结果是从哪里来的?
  • 0:51 - 0:54
    为什么这个结果排在另一个结果的前面呢?
  • 0:56 - 0:58
    好。我们一起深入了解:
  • 0:58 - 1:00
    搜寻引擎如何将你的问题转化成这样的结果。
  • 1:01 - 1:03
    你需要知道的第一件事:当你进行搜寻时,
  • 1:03 - 1:06
    搜寻引擎不是即时地
  • 1:06 - 1:08
    到互联网上去找寻你要的信息。
  • 1:08 - 1:11
    那是因为互联网上有超过数十亿的网站
  • 1:11 - 1:14
    而且每一分钟还有数以百计的网站被创造出来。
  • 1:14 - 1:16
    如果搜寻引擎,
  • 1:16 - 1:19
    必须到每一个网站来找你要的信息,
  • 1:19 - 1:20
    这件事情就会永远无法完成。
  • 1:20 - 1:22
    为了让你的搜寻更加快速,
  • 1:22 - 1:25
    搜寻引擎一直不断地扫描网站
  • 1:25 - 1:29
    提前记录下来,以后可能对你的搜寻有帮助的信息。
  • 1:29 - 1:31
    这样一来,当你搜寻有关「旅行到火星」时
  • 1:32 - 1:34
    搜寻引擎已经拥有了即时能够
  • 1:34 - 1:36
    给你答案所需要的信息。
  • 1:36 - 1:38
    它是这样运作的:
  • 1:38 - 1:42
    互联网是众多网页所连接而成的网。网页间以超链接彼此相连。
  • 1:42 - 1:45
    搜寻引擎一直不断地执行一个名为「蜘蛛」的程序,
  • 1:45 - 1:47
    这个程序在这些网页中爬行,
  • 1:47 - 1:49
    搜集这些网页的信息。
  • 1:50 - 1:52
    每次找到一个超链接,
  • 1:52 - 1:55
    它就会顺着这个连接,
  • 1:55 - 1:57
    拜访在互联网中能够找到的每一个页面。
  • 1:57 - 1:59
    蜘蛛对于每一个它拜访的页面,
  • 1:59 - 2:02
    都会记录所有搜寻所需的信息。
  • 2:02 - 2:06
    这些纪录会加到一个名为「搜寻索引」的特殊数据库。
  • 2:07 - 2:10
    现在,让我们回到先前的搜寻,
  • 2:10 - 2:12
    看看我们能不能弄清楚
  • 2:12 - 2:13
    搜寻引擎是如何产生出这些结果。
  • 2:14 - 2:16
    当你问「旅行到火星需要多长时间」时,
  • 2:17 - 2:19
    搜索引擎会用这句话里的每一个字,
  • 2:19 - 2:21
    到搜寻索引中检查,
  • 2:21 - 2:24
    来马上得到互联网上所有包含这些字的网页清单
  • 2:25 - 2:27
    但是,只是查看这些搜寻字
  • 2:27 - 2:29
    会得到数以百万的网页
  • 2:29 - 2:31
    所以搜寻引擎必须能够判定对你最适当的页面,
  • 2:31 - 2:33
    来优先显示。
  • 2:33 - 2:36
    这就是最微妙的地方,
  • 2:36 - 2:38
    因为搜寻引擎可能需要猜测你在找什么。
  • 2:39 - 2:41
    每个搜索引擎会使用自己的算法,
  • 2:41 - 2:44
    根据它认为你所需要的结果,来排序这些网页。
  • 2:45 - 2:48
    搜索引擎的排序算法可能会检查:
  • 2:48 - 2:50
    你搜寻的字词是否出现在网页的标题上
  • 2:51 - 2:54
    它可能会检查这些字词是否彼此相邻出现
  • 2:55 - 2:57
    以及其他的计算方式,
  • 2:57 - 2:59
    来帮助它能更准确的判断
  • 2:59 - 3:01
    哪些是你想看的网页、哪些不是。
  • 3:03 - 3:05
    对于搜寻选出最相关的结果,Google发明了最著名的算法:
  • 3:05 - 3:09
    它是将「有多少网页连结到特定页面」纳入计算
  • 3:09 - 3:11
    这里的想法是:
  • 3:12 - 3:14
    如果有很多网站认为
  • 3:14 - 3:16
    这一个页面很有意思
  • 3:16 - 3:18
    那么它很有可能就是你正在找寻的那个网页。
  • 3:18 - 3:20
    这个算法称为:「佩奇排名(Page Rank)」。
  • 3:21 - 3:22
    不是因为它排名网页,
  • 3:23 - 3:25
    而是因为它是以发明者,拉里佩奇(Larry Page)来命名的。
  • 3:25 - 3:27
    佩奇是Google的创始人之一。
  • 3:28 - 3:31
    由于,当你查看网页时,网站往往能因此获得收入,
  • 3:31 - 3:33
    垃圾邮件发送者便不断地尝试找到欺骗搜寻算法的方式,
  • 3:33 - 3:36
    来让他们的网页能够在搜寻结果中,
  • 3:36 - 3:38
    有更高的排名
  • 3:38 - 3:41
    搜索引擎定期地更新算法
  • 3:41 - 3:44
    来防止伪造或不受信任的网站来获得高排名。
  • 3:45 - 3:47
    到最后,
  • 3:48 - 3:49
    还是需要由你来留意这些不受信任的网页
  • 3:50 - 3:53
    你可以查看网址,并确认它有个可靠的来源。
  • 3:54 - 3:55
    搜索程序不断地演进,
  • 3:55 - 3:58
    改善算法来回传
  • 3:59 - 4:00
    比竞争对手更好、更快的结果。
  • 4:01 - 4:03
    现今的搜寻引擎,
  • 4:03 - 4:07
    甚至运用你没有明确提供的信息,来帮助你缩小搜寻的范围。
  • 4:07 - 4:10
    例如,你搜寻可以遛狗的公园,
  • 4:10 - 4:12
    许多搜索引擎会有很多搜寻结果
  • 4:12 - 4:14
    如所有在你附近的可以遛狗的公园,
  • 4:14 - 4:16
    即便你没有输入你的位置。
  • 4:18 - 4:21
    现代的搜索引擎,
  • 4:21 - 4:22
    能理解的不仅是网页上的文字,
  • 4:22 - 4:25
    还有实际上的意义
  • 4:25 - 4:27
    为你找出最符合你正在找寻的东西。
  • 4:27 - 4:30
    例如,如果你搜索「速球投手(fast pitcher)」,
  • 4:30 - 4:32
    它会知道你正在寻找的是运动员,
  • 4:32 - 4:34
    如果你搜寻的是「大水壶(large pitcher)」,
  • 4:34 - 4:37
    它会找寻到是与厨房用途的选择。
  • 4:38 - 4:42
    为了更好地理解这些字词,我们运用了机器学习,
  • 4:42 - 4:44
    这是人工智慧的一种。
  • 4:44 - 4:46
    它能够让搜索算法不只是找寻
  • 4:46 - 4:48
    网页中的个别字母或字词
  • 4:48 - 4:51
    还能了解这些字词背后的含义。
  • 4:54 - 4:56
    互联网不断成倍地增长,
  • 4:56 - 5:00
    但如果设计搜寻引擎的团队能帮助我们做正确的判断,
  • 5:00 - 5:04
    你所需要的信息离我们的距离,就只有几次按键之遥。
Title:
The Internet: How Search Works
Description:

more » « less
Video Language:
English
Team:
Code.org
Project:
How Internet Works
Duration:
05:13

Chinese, Simplified subtitles

Revisions Compare revisions