2019年12月11日,普华有策发布《大数据行业概况与发展特征》。
1、行业概况
(1)大数据的定义
大数据是一个伴随社会信息化而诞生,以海量数据积累为基础,囊括无数条“数据产生-数据处理-信息提取-数据消费-新数据生产”的环状链,以降低信息不对称、提高决策有效性、推进智慧和知识演进为目标,可广泛作用于几乎所有实体的跨界生态系统和发展趋势。
(2)大数据的关键特征
从上述对大数据的定义,提取出大数据的四个关键特征,分别是:海量化(Volume)、多样化(Variety)、快速化(Velocity)和价值化(Value)。
1)海量化
大数据首先是数据量大。全球数据量正飞速增长,遍布世界各个角落的传感器、移动设备、在线交易和社交网络每天都要生成上百万兆字节的数据,数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。
2)多样化
大数据的数据类型非常多。海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的不断增加。原来的数据都可以用二维表结构存储在数据库中,如常用的 Excel 软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。统计显示,结构化数据增长率大概是 32%,而非结构化数据增长则是 63%,目前全世界非结构化数据已占数据总量的 80%以上。随着非结构化数据的比重越来越大,并显示出其中蕴含着不可小觑的商业价值和经济社会价值,对传统的数据分析处理算法和软件提出了挑战。
3)快速化
随着经济全球化趋势形成,生产要素成本不断上升,企业面临的竞争环境越来越严酷。在此情况下,能够及时把握市场动态,迅速对产业、市场、经济、消费者需求等各方面情况做出深入洞察,并能快速制定出合理准确的生产、运营、营销策略,就成为企业提高竞争力的关键。而对大数据的快速处理分析,将为企业实时洞察市场变化、迅速做出响应、把握市场先机提供决策支持。
4)价值化
价值是大数据的意义所在。随着社会信息化程度的不断提高、数据存储量的不断增加、数据来源和数据类型的不断多样化,对于企业而言,数据正成为企业的新型资产,形成竞争力的重要基础。与曾经广为提倡的“品牌价值化”一样,“数据价值化”已经成为企业提高竞争力的下一个关键点。
(3)大数据相关技术
数据采集:ETL 工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL 等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理
统计分析:假设检验、显著性检验、差异分析、相关分析、T 检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic 回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析、bootstrap 技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。结果呈现:可视化、BI 等。
(4)大数据技术的价值
拥有海量数据本身并不能创造出多大价值,需要采取技术手段进行处理分析才能获取其智能的,深入的有价值的信息。大数据技术就是从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的”大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
2、行业周期性、季节性与区域性特点
大数据行业作为一个成长性行业,在发展过程中面临着多个良好发展机遇,如互联网金融对金融行业的渗透引发金融机构新一轮的市场竞争。随着金融机构使用数据挖掘来支撑精细化管理和精细化营销的理念深入,大数据需求将呈现出高速发展的态势。
总体上,大数据行业的发展主要与下游多个产业的 IT 投资规模保持相关,并不存在明显的行业周期性。
不同地区的信息化程度和对数据分析、数据挖掘的接受程度决定了该地区的大数据的市场需求,由于当前国家各级政府的高度关注和大力支持,各个地区各个行业对于大数据的关注度普遍较高,因此大数据行业不存在明显的区域性。但由于开展大数据业务对于行业客户本身的信息化基础要求较高。因此发达地区还是一定程度上优于信息化基础薄弱的区域。
电力、金融、能源等行业内的大中型企业往往在年末相对集中支付合同款项,大数据领域内企业的现金流量呈现出一定的季节性。然而,电力、金融、能源等领域内客户的大数据系统需要持续的运营和升级,相应的大数据业务本身并不存在季节性特征。