网络机器人技术[编辑]

网络机器人(Robot)又被称作Spider、Worm或Random，核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW，通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途，如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。机器人安在网上爬行，因此需要建立一个URL列表来记录访问的轨迹。它使用超文本，指向其他文档的URL是隐藏在文档中，需要从中分析提取URL，机器人一般都用于生成索引数据库。

所有WWW的搜索程序都有如下的工作步骤：

(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容；
(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中；
(3)从文档中提取指向其他文档的URL，并加入到URL列表中；
(4)重复上述3个步骤，直到再没有新的URL出现或超出了某些限制(时间或磁盘空间)；
(5)给索引数据库加上检索接口，向网上用户发布或提供给用户检索。

搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略：先进先出，则形成广度优先搜索，当起始列表包含有大量的WWW服务器地址时，广度优先搜索将产生一个很好的初始结果，但很难深入到服务器中去；先进后出，则形成深度优先搜索，这样能产生较好的文档分布，更容易发现文档的结构，即找到最大数目的交叉引用。也可以采用遍历搜索的方法，就是直接将32位的IP地址变化，逐个搜索整个Intemet。

参考资料：

扩展阅读： 1、天涯社区http://wenda.tianya.cn/question/20abade241fc08ec

相关词条：

合作编辑：

分享到：

网络营销词典内容均由网友提供，仅供参考。如发现词条内容有问题，请发邮件至info # wm23.com。

词条信息

浏览次数：114

编辑次数：0历史版本

创建者：李冠烨

最近更新：2012/11/24 14:34:50

词条分类导航

网络营销术语及概念网络营销与电子商务书籍网络营销研究及案例知名网络营销公司网络营销服务市场互联网工具及软件特色网站介绍最新网络热词及事件电子商务网购与网商互联网基础知识FAQ 互联网及网络营销人物网络热销及新奇特产品时尚电子数码产品网络视频及网络游戏移动互联网与APP 知名品牌企业及官网电子商务网络营销教师网络营销能力秀区县政府学校网站1 其他类别

最受关注词条