网页抓取[编辑]

一、基本介绍
网页抓取主要有三个方面：
1、搜集新出现的网页；
2、搜集那些在上次搜集后有改变的网页；
3、发现自从上次搜集后已经不再存了的网页，并从库中删除。
二、基本问题
1、谁来抓取网页？
蜘蛛程序：抓取并保存互联网上对用户有价值的资源。
2、如何抓取网页?
顺着链接找到下一个链接，将抓取的文件存入数据库，并且会定期更新。
3、互联网能有多少网页被抓取？
外国研究专家称“看不见的互联网可能比看得见的互联网大2-50倍”，搜索引擎只找到互联网网页的0.03%。
4、什么样的网站能更好的被抓取？
（1）有合理结构的网站——网站应该有清晰地结构和明晰的导航，一个扁平的树型结构的网站可以使搜索引擎从主页开始顺着链接找到所有的页面；
（2）有可读信息的网站——网站重要内容更多的使用文字而不是图片、Flash等非文本内容，若使用对图片则需加说明文字，因为搜索引擎无法理解图片等非文本文件的含义；
（3）有规范化的URL的网站——不添加非URL字等，URL尽量短。
三、网页抓取的优先策略
通常是尽可能的首先抓取重要性的网页，这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。什么是重要性高的网页呢，主要由这三个方面决定的：
1、链接欢迎度
链接欢迎度主要是由反向链接的数目和质量决定的。
2、链接重要度
链接重要度它是关于一个URL字符串的函数，仅仅考察字符串本身，它主要通过一些模式，如认为包含“.com”，“HOME”的URL重要度高，以及包含较少斜杠的URL重要度高等。
3、平均链接的深度
平均链接的深度表示在一个种子站点集合中，每个种子站点如果存在一条链路到达该网页，那么平均链接深度又是该网页的一个链接指标，因为距离种子站点越近说明被访问的机会越多。

参考资料： http://baike.so.com/doc/3930879.html

扩展阅读：

相关词条：

网站，搜索，蜘蛛，抓取

合作编辑：

分享到：

网络营销词典内容均由网友提供，仅供参考。如发现词条内容有问题，请发邮件至info # wm23.com。

词条信息

浏览次数：10

编辑次数：0历史版本

创建者：李晓晨

最近更新：2014/11/2 11:42:02

词条分类导航

网络营销术语及概念网络营销与电子商务书籍网络营销研究及案例知名网络营销公司网络营销服务市场互联网工具及软件特色网站介绍最新网络热词及事件电子商务网购与网商互联网基础知识FAQ 互联网及网络营销人物网络热销及新奇特产品时尚电子数码产品网络视频及网络游戏移动互联网与APP 知名品牌企业及官网电子商务网络营销教师网络营销能力秀区县政府学校网站1 其他类别

最受关注词条