大数据的财富与陷阱[编辑]
大数据
巨量资料(big data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume、Velocity、Variety、Veracity。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。
大数据的财富
大数据时代,我们能轻易地得到数据全体,不再需要样本。譬如,阿里巴巴能得到所有买家的数据,它能轻易地统计“光棍节”那天的交易金额,算出哪个地区交易最活跃,可以通过媒体实时转播交易盛况。这就是大数据的全数据模式,数据处理的范围是全体,而不再是样本。第二个变化,是不再一味地追求数据的精确性。由于大数据的多样性、丰富性、动态性(在处理的同时,数据还在大量产生),强调数据的精确性是做不到的,也没有必要。纷繁的数据会混杂在一起,看起来好像全无用处,甚至有些还是错误的数据,但是没有关系,这就是大数据的本性,看似无关无用的一堆数据却蕴含着无限商机。
大数据时代将催生一个数据挖掘行业,出现一批数字科学家。简单地说,数据挖掘就是从收集的数据中用一定的算法分析计算,得到我们所需要信息和知识的过程。传统的统计分析是将数据按已知的类别进行分类统计,然后寻找有价值的数据。如果给定的分类是不合理的或是错误的,那统计出来的结果就不会产生最好的效果。而数据挖掘采用的是一种叫“聚类”的方法,它事先不需要人工分类,而是由算法分析数据的属性,将数据自动聚集成“类”,使“类”间的相似性尽量小,“类”内的相似性尽量大。比方说,保险业务涵盖各类人群、各种职业,所以设计某个险种潜在的客户目标群,需要对大量数据进行挖掘,才能找出不同的客户群和重要系数,这不是事先人为设定的。要“让数据自己说话”,这样才能因地制宜地制订营销计划,科学测算盈亏平衡,为保险企业创造更多利润。
大数据的陷阱
大数据也有陷阱,归结为数据垄断、侵犯隐私和数据误导三个主要方面。
大数据技术使得人类的态度、情绪、行为等以往认为难以测量的方面,都可以变为数据来进行分析和预测。一旦大数据掌握在少数企业或政府部门之间,他们为了维护自己的利益而拒绝信息流动,这不仅浪费了数据资源,而且会阻碍数据创新,形成数据垄断。比方说,全国的房产数据如果能共享,这对国家了解房产的整体、真实情况非常有益,也能轻易挖出贪污腐败的嫌疑分子,但是这些数据往往掌握在地方部门之间,不能形成有效共享。
侵犯隐私是大数据的影子,只有将大数据置于法律的阳光下才能驱除。被斯诺登揭露的美国“棱镜计划”,就是利用访问大数据的能力,监控互联网、电信等九大营运商的数据库,从中挖掘“有用信息”,达到收集情报、秘密监控的目的。
数据误导是大数据风险的一个侧面,如果不对数据挖掘的结果加以评估验证,那利用大数据可能带来错误结果。虽然大数据容忍有数据差错,但如何有人主动地弄“脏”数据,整个大数据就会被人为扭曲,加进了虚假信息。
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。