首页 >> 网络营销词典 >> 历史版本页面
互联网工具及软件

网络蜘蛛


此为词条历史版本页面,由oοゞ莈菋檤于2011/5/31 12:40:01贡献。查看最新版本

网络蜘蛛-定义
网络蜘蛛即Web Spider,是一个很形象的名字,网络蜘蛛是一个爬行程序,一个抓取网页的程序。
它是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

网络蜘蛛-访问网站

网络蜘蛛访问网站的过程可简单归纳如下:

向网站标明自己的身份→发送包含User-agent的字段(用于标识身份)→进入网站访问Robots.txt协议→网络蜘蛛遵循协议→根据HTML代码中的meta标识确定是否抓取网页


      robots.txt是一个特殊的文本文件,一般放在网站服务器的根目录下,网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问。
许多网络蜘蛛会把sitemap.htm(网站地图)文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。

网络蜘蛛-内容提取

      对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
      1.对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛调用这些插件的接口,提取文档中的文本信息和文件其它相关的信息。
      2.对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,需要过滤这些无用的链接,过滤这些无效链接需统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。
      3.对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。另外,

      4.动态网页一直是网络蜘蛛面临的难题,对简单的asp、jsp、php,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如JavaScript)生成的动态网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。
      5.对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
      6.对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。

网络蜘蛛-评价指标

覆盖率——网络蜘蛛的首要目标是抓取互联网上所需的信息。因此,有价值的信息是否都收录,收录的比例(即覆盖率)是网络蜘蛛的基本评价指标   

时效性——即事件发生并在互联网上传播后(以新闻、论坛、博客等各种形式),用户需要通过搜索引擎尽快能检索到相应内容。

重复率——互联网上重复的内容很多,如何尽早的发现页面重复并消除之,是网络蜘蛛需要解决的问题。

网络蜘蛛-价值
      网络蜘蛛可以算得上是为Internet而开发的最有用处的工具之一。时至今日,要想从以千万计的各不相同的站点中获取信息。网络蜘蛛技术的完善与进步,将给信息社会生活带来极大的进步与改变。对于内容丰富的大型信息类网站和产品线丰富的在线销售型网站来说,提供一般性的全文检索是远远不够的,很有必要开发能够实现个性化需求的高级搜索功能,这也是体现网站的网络营销功能的重要方面。网络蜘蛛技术必定大行其道。

参考资料:
互动百科http://www.hudong.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B?prd=button_doc_jinru#5
扩展阅读:
搜搜百科http://baike.soso.com/v15973.htm 互动百科http://www.hudong.com/wiki/%E7%BD%91%E7%BB%9C%E8%9C%98%E8%9B%9B?prd=button_doc_jinru#5
相关词条:

网络蜘蛛

关于网络营销教学网站| 本站动态| 网站地图| 版权声明| 联系作者| 问题和建议|

版权声明:网络营销教学网站所有作品版权均归原作者所有,未经书面许可,严禁任何形式的转载/转贴、出版、篡改、汇编、编译等。