大数据抽取[编辑]
一、 基本定义
数据抽取,指的是从原始数据中抽取出感兴趣数据的过程,例如对地理数据的提取是基于数据的属性值、空间范围以及地理特征。现在,数据抽取被广泛地运用于大型零售企业和科研领域。
二、 基本抽取方式
在实际应用中,数据源较多采用的是关系数据库,其中数据抽取的一般方式有:
1. 全量抽取
全量抽取比较简单,即类似于数据迁移或数据复制,它将数据源中的表或者视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。
2. 增量抽取
增量抽取,是只抽取自上次抽取以来,数据库中要抽取的表中新增、修改、删除等数据。在ETL使用过程中,增量抽取较全量抽取应用更广。
三、 数据提取的步骤
1. 理解数据和数据的来源(understanding)。
2. 获取相关知识与技术(acquisition)。
3. 整合与检查数据(integration and checking)。
4. 去除错误或不一致的数据(data cleaning)。
5. 建立模型和假设(model and hypothesis development)。
6. 实际数据挖掘工作(data mining)。
7. 测试和验证挖掘结果(testing and verification)。
8. 解释和应用(intERPretation and use)。
四、 数据提取应用案例
1. 美国沃尔玛连锁店超市拥有世界上最大的数据仓库系统,为了准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,并输入进数据系统进行数据提取。
2. 一些电子购物网站,如亚马逊、巴诺、京东等使用数据库系统提取数据,然后设置用户有意购买的捆绑包或者设置相应的交叉销售。
3. 法国电信公司和美国电话电报公司(AT&T)通过数据库系统,处理超过3亿个以上的电话,并根据提取的数据制定相应营销措施。
4. 科研机构,将数以百计的实验数据录入相应的数据库系统并提取,分析研发有利于大众的创新产品。
5.飞机失事时,在其黑匣子中提取相应的数据进行分析,得出失事原因。如马航事件,现在刚发生的德国之翼客机坠毁事件,都是利用黑匣子提取数据。
五、 数据提取的特点
1. 便于统计分析,简便性高
2. 信息量大,数据可观
3. 可靠有效性强
4. 盈利性强(实现利益最大化)
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。