我爱学习网 52xx.cn我爱学习网菜单按钮
  • 搜索

为什么在网络上搜索信息那么快?

在没有网络的时代,我们依靠图书馆收藏着的海量图书来获取所需的信息,如今我们越来越多地通过网络来搜索信息。截至2012年4月,互联网上被收录的网页已有50000000000个了。如果按照一本书500页来估算,目前互联网上的信息量大约相当于1亿册图书。当你上网搜索“图书馆”这个词的时候,你会发现几乎瞬间就能搜索到几千万个结果。想想看,平时我们打开一个网页都需要不少时间,为什么我们在搜索引擎中搜索信息时却只需要短短一瞬间?

如果搜索引擎的服务器是逐个打开收录的网页,那么在其中搜索我们输入的关键字就要使用很长的时间。假设服务器1秒钟可以搜索1万个网页,搜索完所有的网页就需要57.9天。想象一下,如果你提交一个关键字搜索请求以后,过了两个月才能收到搜索结果,那不太耽误事了吗?

其实,服务器使用了“关键字索引”的方法预先将所有网页都扫描了一遍,然后为网页中的每个词语都建立一个跟这个词语有关的关键字索引。一个网页中如果同一个词语出现多次,则建立同一个关键字的多个索引。这张表就叫作“关键字索引表”。比如,有两个网页,网页1的内容是“互联网图书馆是世界上最大的图书馆”,网页2的内容是“世界上最大的椅子在哪里”。那么我们建立的关键字索引表是这样的:当我们搜索“最大”的时候,服务器先在关键字索引表中找到“最大”这个关键字。找到关键字后,再读出这个关键字对应的网页地址和索引值。根据这个索引值,就能直接显示出网页的搜索结果

1

网页1:互联网图书馆是世界上最大的图书馆。

网页2:世界上最大的椅子在哪里

搜索引擎为互联网上的每个网页都建立了关键字索引表。在关键字索引表中可以查到包含这个关键字的网页和位置。因为词语的数目比网页的数目要少很多,所以在关键字索引表上找到某个特定的关键字需要花的时间要比扫描所有网页的时间少得多。找到关键字对应的索引之后,搜索引擎就将对应的网页内容显示出来了。

在互联网上每天都会出现许许多多的新网页,搜索引擎也会一刻不停地寻找各个网站上有没有新的内容出现,所以搜索引擎关键字索引表里的内容一直都是最新的。因此我们搜索某个关键字的时候,不同时间得到的搜索结果都是不尽相同的。