什么是大数据?大数据到底有多“大”?
近年来,随着互联网、物联网的快速发展,使得大数据成为了当下最热门的科技词汇之一。那么,什么是大数据?大数据到底有多“大”呢?
严格来讲,大数据是一种涉及数据的收集、存储、分析、处理,从而提取数据背后价值的综合性技术,它不仅包括海量的数据本身,还包括对这些数据的处理和应用。
大数据通常被认为具有如下四个特点:大量(volume),多样(variety),高速(velocity),价值(value)。由于这四个特征的英文首字母都是“v”,所以通常被称为大数据的“4v”特性。
1、大量(volume)
量大是大数据最显著的特点,也是很多人对于大数据最直观的感受。
根据idc发布的《数据时代2025》白皮书中的统计,2018年全球的数据量大约是33zb,对此的直观比喻:33zb=354亿tb,每天产生的数据量大概为9700万tb,家用电脑的硬盘容量一般是1tb,也就是说每天需要用9700万台电脑来存储所产生的数据。
而且随着物联网的兴起,到2025年每年产生的数据量预计可以达到175zb。
2、多样(variety)
即大数据的来源、数据类型的多样性。例如,大数据可以来源于物联网的传感器,也可以来源于天网的视频数据,以及阿里巴巴或上海股票交易所的交易数据,还可以是文档、视频、音频等数据类型,甚至也可以是图片数据。
所有数据通常可以被划分为结构化数据(即数据间有较强的因果关系,如刚才提到的各种信息系统产生的数据)、非结构化数据(即数据间通常没有因果关系,如视频、音频、图片数据)和半结构化数据(即数据间有较弱的因果关系,如邮件、html文档数据)。
严格说来,所有数据最终都必须转化为结构化数据,目前只有结构的电子数字计算机才能使用、运算。
3、高速(velocity)
即大数据的传播速度和对海量数据的实时处理。大数据是通过互联网传播,所以比传统的报纸、广播传统数据载体传播速度更快。
同时,由于每时每刻都会产生海量的数据,而因为成本的关系,不可能将所有数据都永远保存下来,我们通常只会保留处理和分析那些比较重要的数据或者是最近一段时间的重要数据。