互联网工具及软件

网络蜘蛛

此为词条历史版本页面，由oοゞ莈菋檤于2011/6/12 4:20:23贡献。查看最新版本

网络蜘蛛-定义
网络蜘蛛即Web Spider，是一个很形象的名字,网络蜘蛛是一个爬行程序，一个抓取网页的程序。
它是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

网络蜘蛛-访问网站

网络蜘蛛访问网站的过程可简单归纳如下：

向网站标明自己的身份→发送包含User-agent的字段（用于标识身份）→进入网站访问Robots.txt协议→网络蜘蛛遵循协议→根据HTML代码中的meta标识确定是否抓取网页

robots.txt是一个特殊的文本文件，一般放在网站服务器的根目录下，网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问，或者哪些目录对于某些特定的网络蜘蛛不能访问，如果网络蜘蛛的设计者不遵循这个协议，网站管理员也无法阻止网络蜘蛛对于某些页面的访问。
许多网络蜘蛛会把sitemap.htm（网站地图）文件作为一个网站网页爬取的入口，网站管理员可以把网站内部所有网页的链接放在这个文件里面，那么网络蜘蛛可以很方便的把整个网站抓取下来，避免遗漏某些网页，也会减小对网站服务器的负担。

网络蜘蛛-内容提取

      对于网络蜘蛛来说，抓取下来网页包括各种格式，包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用，另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
      1.对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。网络蜘蛛调用这些插件的接口，提取文档中的文本信息和文件其它相关的信息。
      2.对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，需要过滤这些无用的链接，过滤这些无效链接需统计大量的网页结构规律，抽取一些共性，统一过滤；对于一些重要而结果特殊的网站，还需要个别处理。
      3.对于多媒体、图片等文件，一般是通过链接的锚文本（即，链接文本）和相关的文件注释来判断这些文件的内容。另外，

      4.动态网页一直是网络蜘蛛面临的难题，对简单的asp、jsp、php，可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言（如JavaScript）生成的动态网页，如果要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。
      5.对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这给网络蜘蛛的抓取带来很大的困难。对于这类网站，如果网站设计者希望这些数据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。
      6.对于网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插件处理。

网络蜘蛛-评价指标

覆盖率——网络蜘蛛的首要目标是抓取互联网上所需的信息。因此，有价值的信息是否都收录，收录的比例（即覆盖率）是网络蜘蛛的基本评价指标　　

时效性——即事件发生并在互联网上传播后（以新闻、论坛、博客等各种形式），用户需要通过搜索引擎尽快能检索到相应内容。

重复率——互联网上重复的内容很多，如何尽早的发现页面重复并消除之，是网络蜘蛛需要解决的问题。

网络蜘蛛-价值
网络蜘蛛可以算得上是为Internet而开发的最有用处的工具之一。时至今日，要想从以千万计的各不相同的站点中获取信息。网络蜘蛛技术的完善与进步，将给信息社会生活带来极大的进步与改变。对于内容丰富的大型信息类网站和产品线丰富的在线销售型网站来说，提供一般性的全文检索是远远不够的，很有必要开发能够实现个性化需求的高级搜索功能，这也是体现网站的网络营销功能的重要方面。网络蜘蛛技术必定大行其道。

网络蜘蛛的起源　　

要说网络蜘蛛的起源，我们还得从搜索引擎说起，什么是搜索引擎呢？搜索引擎的起源是什么，这和网络蜘蛛的起源密切相关。

搜索引擎指自动从因特网搜集信息，经过一定整理以后，提供给网络蜘蛛

用户进行查询的系统。因特网上的信息浩瀚万千，而且毫无秩序，所有的信息像汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为你绘制一幅一目了然的信息地图，供你随时查阅。

　　搜索引擎从1990年原型初显，到现在成为人们生活中必不可少的一部分，它经历了太多技术和观念的变革。

　　1994年的1月份，第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。在它之后才出现了雅虎，直至我们现在熟知的Google、百度。但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。从搜索FTP上的文件开始，搜索引擎的原型就出现了，那时还未有万维网，当时人们先用手工后用蜘蛛程序搜索网页，但随着互联网的不断壮大，怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点，成为人们研究的重点。

　　搜索引擎原型初显

　　如果要追溯的话，搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前，互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西，1990年，加拿大麦吉尔大学（McGillUniversity）的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库，再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看，它是所有搜索引擎的祖先。

　　当万维网（WorldWideWeb）出现后，人们可以通过 html传播网页信息，网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来，进行分类、整理，以方便查找。现在人们很熟悉的网站雅虎（Yahoo）就是在这个环境下诞生的。还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来，与同学一起分享。后来，1994年4月，他们俩共同办了雅虎。随着访问量和收录链接数的增长，雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。网络蜘蛛

当“蜘蛛”程序出现时，现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”（Computer Robot），电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去，反反复复，不知疲倦。所以，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

　这种程序实际是利用html文档之间的链接关系，在Web上一个网页一个网页的爬取（crawl），将这些网页抓到系统来进行分析，并放入数据库中。第一个开发出“蜘蛛”程序的是Matthew　Gray，他于1993年开发了World　Wide　Web　Wanderer，它最初建立时是为了统计互联网上的服务器数量，到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer，后来很多人在此基础上对蜘蛛程序进行了改进。

　　1994年7月20日发布的Lycos网站第一个将 “蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中，都靠“蜘蛛”来搜集网页信息。Infoseek是另一个重要的搜索引擎，于1994年年底才与公众见面。起初，Infoseek只是一个不起眼的搜索引擎，它沿袭Yahoo!和Lycos的概念，并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995年12月，它与Netscape的战略性协议，使它成为一个强势搜索引擎：当用户点击Netscape浏览器上的搜索按钮时，弹出Infoseek的搜索服务，而此前由Yahoo!提供该服务。 1995年12月15日，Alta Vista正式上线。它是第一个支持高级搜索语法的搜索引擎，成功地整合了此前人类所有的信息检索技术，解决了包括字根处理、关键词检索、布尔逻辑，以及通过向量空间模型的查询排名等关键问题。正式公开之前，Alta Vista就已经拥有20万访问用户，在短短三个星期之内，到访人数由每天30万次增加到200万次。它的成功在于满足了用户三个方面的需求：网上索引范围超过了此前任何一家搜索引擎；短短几秒钟内便可从庞大的数据库中为用户返回搜索结果；Alta Vista小组从一开始就采用了一种模块设计技术，能够跟踪网站的流行趋势，同时不断扩大处理能力。在当时许多搜索引擎之中，Alta Vista脱颖而出，成为网络搜索的代名词。Google就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索” 改变了人们上网方式的，就是现在鼎鼎大名的Google。Google并不是搜索引擎的发明者，甚至有点落后，但是它却让人们爱上了搜索。

　　1998年9月，在佩奇和布林创建Google之时，业界对互联网搜索功能的理解是：某个关键词在一个文档中出现的频率越高，该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题，如果一个页面充斥着某一个关键字的话，那么它将排在很显著的位置，但这样一个页面对于用户来说，却没有任何意义。佩奇和布林发明了“网页级别”（PageRank）技术，来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列，互联网上指向这一页面的重要网站越多，该页面的位次也就越高。当从网页A链接到网页B时，Google 就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而，除了考虑网页得票数的纯数量之外，Google还要分析投票的网页，“重要”的网页所投出的票就会有更高的权重，并且有助于提高其他网页的“重要性”。 Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别，从而保证了网页排名的客观公正。除此之外，动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟Google，推出这些服务。Fast（Alltheweb）公司发布的搜索引擎AllTheWeb，总部位于挪威，其在海外的风头直逼Google。Alltheweb的网页搜索支持Flash和pdf搜索，支持多语言搜索，还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索，拥有极其强大的高级搜索功能。而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众，它拥有超过10亿的中文网页数据库，并且，这些网页的数量每天正以千万级的速度在增长。

　　搜索引擎越来越成为人们生活中重要的一部分，找资料、查地图、听音乐，只有想不到的，没有搜索不到的。

　　搜索引擎的三个基本原理

　　1．利用蜘蛛系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

　　2.由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

　　3.当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

参考资料：

互动百科http://www.hudong.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B?prd=button_doc_jinru#5

扩展阅读：

搜搜百科http://baike.soso.com/v15973.htm 互动百科http://www.hudong.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B?prd=button_doc_jinru#5