Web数据挖掘的分类[编辑]

根据对Web数据的感兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘（Web Content mining）、 Web结构挖掘（ Web structure mining）、 Web 用法挖掘（Web usage Mining）

1、Web内容挖掘：

指从Web内容/数据/文档中发现有用信息，Web上的信息五花八门，传统的Internet由各种类型的服务和数据源组成，包括WWW、FTP、 Telnet等，现在有更多的数据和端口可以使用，比如政府信息服务、数字图书馆、电子商务数据，以及其他各种通过Web可以访问的数据库。Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现（KDT）领域，也称文本数据挖掘或文本挖掘，是Web挖掘中比较重要的技术领域，也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。

Web 内容挖掘一般从两个不同的观点来进行研究。从资源查找（IR）的观点来看，Web内容挖掘的任务是从用户的角度出发，怎样提高信息质量和帮助用户过滤信息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模，以支持对Web数据的复杂查询。

1．1从资源查找（Information Retrival）的观点挖掘非结构化文档：

非结构化文档主要指Web上的自由文本，包括小说、新闻等。在这方面的研究相对比较多一些，大部分研究都是建立在词汇袋（bag of words）或称向量表示法（vector representation）的基础上，这种方法将单个的词汇看成文档集合中的属性，只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型，根据词汇是否在文档中出现而定，也可以有频度，即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富，词汇量非常大，处理起来很困难，为解决这个问题人们做了相应的研究，采取了不同技术，如信息增益，交叉熵、差异比等，其目的都是为了减少属性。另外，一个比较有意义的方法是潜在语义索引（Latent Semantic Indexing），它通过分析不同文档中相同主题的共享词汇，找到他们共同的根，用这个公共的根代替所有词汇，以此来减少维空间。例如： “informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示，这样可以减少属性集合的规模。

其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等，目前还没有研究表明一种表示法明显优于另一种。

用资源查找（Information Retrival）的观点挖掘半结构化文档：

与非结构化数据相比，Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘，其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。

1．2从数据库（Database）的观点挖掘非结构化文档：

数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类：Web信息的建模和查询；信息抽取与集成；Web站点建构和重构。

从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成，以支持复杂查询，而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。

数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识（OID）和值，值可以是原子类型，如整型、字符串型、gif、html 等，也可以是一个复合类型，以对象引用集合的形式表示。由于Web数据量非常庞大，从应用的角度考虑，很多研究只处理办结构化数据的一个常用自集。一些有意义的应用是建立多层数据库（MLDB），每一层是它下面层次的概化，这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。

由于在数据库观点下数据的表示方法比较特殊，其中包含了关系层次和图形化的数据，所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用，目前已经有人针对多层数据库挖掘算法进行研究。

2、Web结构挖掘：

Web结构挖掘的对象是Web本身的超连接，即对Web文档的结构进行挖掘。对于给定的Web文档集合，应该能够通过算法发现他们之间连接情况的有用信息，文档之间的超连接反映了文档之间的包含、引用或者从属关系，引用文档对被引用文档的说明往往更客观、更概括、更准确。

Web 结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接，运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。他们的共同点是使用一定方法计算Web页面之间超连接的质量，从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。

此外，Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘，包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性，在不同的 Web数据仓库中检查副本以帮助定位镜像站点，通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。

3、Web用法挖掘（Web usage Mining）：

即Web 使用记录挖掘，在新兴的电子商务领域有重要意义，它通过挖掘相关的Web日志记录，来发现用户访问Web页面的模式，通过分析日志记录中的规律，可以识别用户的忠实度、喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的，而且数据类型也相当丰富。根据对数据源的不同处理方法，Web 用法挖掘可以分为两类，一类是将Web使用记录的数据转换并传递进传统的关系表里，再使用数据挖掘算法对关系表中的数据进行常规挖掘；另一类是将Web 使用记录的数据直接预处理再进行挖掘。Web 用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户，如何识别属于该用户的会话和使用记录，这个问题看起来不大，但却在很大程度上影响着挖掘质量，所以有人专门在这方面进行了研究。通常来讲，经典的数据挖掘算法都可以直接用到Web 用法挖掘上来，但为了提高挖掘质量，研究人员在扩展算法上进行了努力，包括复合关联规则算法、改进的序列发现算法等。

参考资料：

扩展阅读：