大数据时代[编辑]
概述
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里•金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
大数据的提出
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注.
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。[4]
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
大数据的四个特征
数据量大
第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
类型繁多
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低
第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
速度快时效高
第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。
既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
大数据技术
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
产业崛起
越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。
今年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
而最为积极的还是众多的IT企业。麦肯锡在一份名为《大数据,是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”,该报告在业界引起广泛反响。
IBM则提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”
在国内,百度已经致力于开发自己的大数据处理和存储系统;腾讯也提出目前已经到了数据化运营的黄金时期,如何整合这些数据成为未来的关键任务。
事实上,自2009年以来,有关“大数据” 主题的并购案层出不穷,且并购数量和规模呈逐步上升的态势。其中,Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元,大数据的产业价值由此可见一斑。
提供依据
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界。
大数据虽然孕育于信息通信技术的日渐普遍和成熟,但它对社会经济生活产生的影响绝不限于技术层面,更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出。
事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
最让人吃惊的例子是,社交媒体监测平台DataSift监测了Facebook(脸谱) IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动。
这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例之一,此外还有谷歌通过网民搜索行为预测流感爆发等例子。不仅在商业方面,大数据在社会建设方面的作为同样令人惊叹,智能电网、智慧交通、智慧医疗、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。
“大数据”可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些习惯于靠“差不多”运行的社会发生巨大变革。
大数据时代的驱动力
40多年在人类沧海桑田的历史上仅仅是弹指一挥间,摩尔定律却见证了电脑的数据处理和储存能力从K(Kilobyte)到M(Megabyte)到G(Gigabyte)到T(Terabyte)的变迁。尤其是互联网的出现,让我们急速地跨入了大数据(Big Data)时代。其主要的驱动力有以下几点:
1、随着社会经济的发展和个人收入的增加,人们的个性化需求开始凸显。而企业要去高效地满足这些个性化的需求则需要大量的数据支持。
2、互联网的出现和相关技术的发展让海量数据的收集和分析成为可能。互联网的特征又导致这些数据能够被高速度和大容量的传播。
3、互联网引入了由用户产生数据的模式。这种模式的特征是多源头,低成本,更及时。当然,这些数据的真实性和可靠性需要被核证。
4、构建在互联网基础上的电子商务和传统零售比较的优势之一就是数据的可获得性。电子商务可以实时得到顾客的来访源头,在网站内的搜索、收藏、购买行为,以及购买的商品间的关联性。这些数据可以帮助企业更精准的为顾客服务。
5、人工智能、信息系统和决策科学的发展促进了多种分析方法及工具的推动,包括数据挖掘,顾客行为模型,决策支持,等等。
大数据时代面临的复杂挑战
随着数据量的爆炸式增长,以及无处不在的数字化协作的需求,企业的IT部门早已经知道传统的数据管理方法跟不上时代发展的步伐,因此他们正在寻找更先进的解决方案来保护他们的数据。IT部门处理大数据的关键是无视大数据的过份炒作,并学习更多的实际利益,如发现公开暴露的数据,标记恶意活动,并确定过度访问。
一个复杂的挑战
除了关于大数据定义的混乱外,大数据的复杂性也阻碍了企业从中获益。
IBM公司的克莱格说,客户关心的问题有如下三个方面:
成本:
当他们看到产品是基于复杂和昂贵的技术时,他们首先需要探索和了解其价值。IBM的做法是提供一个灵活的方法——云计算、软件、设备,以符合客户的投资价值曲线。
技能:
企业还需要一定的时间来赶上市场需求的步伐。例如,数据科学家和数据分析人士的培养。同样,他们还需要一个灵活的方法,从完全外包到内部技能等诸多方面。
价值:
关键是要探索,寻找价值和建设技能的增量成本。
尽管市场上存在着一定的混乱,毫无疑问的是,企业也开始纷纷意识到利用数据的益处,他们已经开始收集或产生数据,进而把这些数据信息变成资产。为了从日趋成熟的市场获得信任,经销商必须具备相关的专业知识,引导客户通过雷区,良好的供应商伙伴关系,可以很好的支持企业业务。
移动应用营销以数据为本
大数据时代,我们要倾听,因为这是收集数据的黄金时代;大数据时代,我们要理解,因为将数据转化为有效信息成为首要任务;大数据时代,我们更要行动,因为在玩转"数据"基础上的大规模个性化营销将是核心竞争力!
UGC+移动互联网,大数据时代为开发者带来新挑战
互联网行业每隔5、6年就是一次"改朝换代"。Web1.0时代用户通过浏览器获取信息,网站凭借巨大的点击流量获利,信息的传递是单向的。到了Web2.0时代,Facebook、Twitter等掀起社会化浪潮,对传统的在线数字营销产业链三方角色进行了重构。
如今,UGC与移动互联网相结合驱动大数据时代的到来。何为大数据时代?用户随时随地可产生海量的信息,而且"大数据"不仅仅是数据量的增加,还意味着来自于多种数据源。全球畅销书《社会消费网络营销》作者拉里•韦伯认为,所谓大数据,包括企业信息化的用户交易数据,社会化媒体中用户的行为数据和关系数据以及无线互联网中的地理位置数据。
技术+营销无缝融合,移动应用营销以数据为本
互联网领域大数据时代到来的同时,营销领域也经历了重大变革,从"USP独特销售主张"时代到"品牌"时代,到如今的以消费者为导向。这就意味着,APP开发者必须拥抱时代变革,从之前普遍采取的通过搜索优化的方式获取关注与下载,逐渐转向以用户为导向,用户习性决定着开发者的方向。
大数据时代是技术与营销无缝融合的时代。在互联网行业,谁有数据和对海量数据的强大运算能力,谁就有制胜的砝码。APP营销变成了一门"数据活儿",APP开发者需要借助技术与营销两种手段,在海量的移动互联网网民中找到自己的受众并了解他们的喜好,从而进行更为精准的投放。
大数据的价值与应用
大数据像水、像矿石、像石油一样,正在成为新的自然资源,能不能挖掘资源中潜在的价值,成为这个时代能不能走向创富的重要条件。
有数据显示,预计到2020年,全球拥有的数据量是35ZB,在如此庞大的数据量面前,它所带来的信息以及反馈出来的事实,对于人类来的说具有巨大的潜在价值。大数据究竟能为包括服装行业在内的经济发展带来什么价值?
第一,通过大数据分析,各行各业都能更快地对变革进行跟踪,响应全球经济快速的变化。第二,在全球金融经济危机的状态下,通过数据分析,能够更好地理解整个经济危机行为的演变。第三,能够更好地满足大众和企业服务的需求,而且可以预测市场的变化。
而从大数据利用的方式上,也可产生几个方面的价值。首先,大数据的价值密度较低,现在可利用和分析的数据只是冰山一角,数据里的价值远没有被发掘出来,所以要利用分析技术去发现它们的潜在价值。其次,要实现大数据整合创新的价值,通过不同渠道的聚集整合,创造新的数据价值。
对服装企业来说,在哪些方面可以利用大数据,从而对业务产生积极的影响?
第一,为客户进行产品推荐,这是知名电商亚马逊的竞争力之一。网站根据相似的购买行为,对客户喜好进行分析,最终为客户推荐一系列产品。
第二,基于客户反馈改进产品设计,如在淘宝评论上的反馈。在海量的评论信息中,不是每个评论信息都对企业有用,但也确实能反映客户对产品的体验。
第三,通过分析客户的喜好,实现社区营销。企业以客户为基础把握社区中的数据,因此,现在有很多企业通过ADB“反问”到相关数据分析,来实现客户分析。
第四,基于数据分析进行广告投放。通过点击的数据,进行广告位置、颜色、大小、用词的试验,这样可以更好地改进点击行为。
第五,基于社区热点,对流行时尚趋势进行预测,通过热点话题的分析先导性地判断流行趋势。
第六,基于交易分析进行产品定价。如客户对于产品价格的变化有什么反应?价格提升在什么样的数据范围内会造成客户流失?
第七,基于客户异常的流失预测和多个客户行为数据,建立客户的预警模型。
第八,基于环境分析的问题探讨。
第九,物联数据的产品管理。
赵刚说:“企业都是跟大数据相关的,不要觉得大数据太大,跟我们没有什么关系,大数据所分析出来的信息,能够服务于企业的业务提升。此外,在实施的过程中,大数据并不会投入很大的技术力量。”
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。