搜索引擎robot[编辑]

名片

搜索引擎机器人（robot）也称网络蜘蛛（Web Spider)，这是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网页都抓取完为止。如果把整个互联网当做一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

工作原理

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的问题，如果按照每个页面的平均大小为20K计算（包含图片），100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载20K计算，需要340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。

参考资料： http://baike.baidu.com/link?url=oaI2vUrwW4y_15IXFJ3ePNaC7Bo2xHf7HAXiiIrc5BB8mOvEUFPJywF8Tmxinbeg7M7RHpxbdKYXTA-nXVe-D_

扩展阅读： http://baike.baidu.com/link?url=oaI2vUrwW4y_15IXFJ3ePNaC7Bo2xHf7HAXiiIrc5BB8mOvEUFPJywF8Tmxinbeg7M7RHpxbdKYXTA-nXVe-D_

相关词条：

合作编辑：

分享到：

网络营销词典内容均由网友提供，仅供参考。如发现词条内容有问题，请发邮件至info # wm23.com。

词条信息

浏览次数：19

编辑次数：0历史版本

创建者：殷志娟

最近更新：2013/9/27 1:35:58

词条分类导航

网络营销术语及概念网络营销与电子商务书籍网络营销研究及案例知名网络营销公司网络营销服务市场互联网工具及软件特色网站介绍最新网络热词及事件电子商务网购与网商互联网基础知识FAQ 互联网及网络营销人物网络热销及新奇特产品时尚电子数码产品网络视频及网络游戏移动互联网与APP 知名品牌企业及官网电子商务网络营销教师网络营销能力秀区县政府学校网站1 其他类别

最受关注词条