什么是“大数据”

Posted on Sun 15 July 2012 in it

上周五参加了第二届大数据世界论坛,第一个收获就是对什么是“大数据”有了基本的认识。 好几位演讲嘉宾都在slide中给出了自己对大数据的定义,通过综合比较下面4个厂商给出的定义,感觉其实业界对大数据还已经形成了定性的共识,但在定量方面貌似还有不小的差异。 下面归纳大家的共识,给出另外一版定义(定量部分仅供参考): 1. 背景 a) 从近几年数据量的增长趋势上看,预计到2020年世界数据量达到35.2ZB(10的21次方),比10年增加44倍; b) 从技术角度看,现有常规技术架构在处理这种规模的数据上面临很大挑战,业界需要新的技术手段能以足够经济的办法处理极端规模的数据量; c) 从业务角度看,大数据对应的收集、处理和分析过程没有发生根本改变,构建和运行大数据系统的投入必须要能够产生最够的价值才有意义 2. 对大数据的描述(6V) a) 大规模(Volume):数据量至少得到达PB(~10的15次方,1000T)的规模; b) 快速性(Velocity):短暂的决定时间和数据本身快速的变化是系统建设最大的挑战; c) 多样性(Variety):数据类型多样,给集成带来了很大的开销。一般来说我们需要构建结构化、半结构化和文件型数据并存的数据系统; d) 鲜活度(Vitality):数据采集的准确性和及时性,不同行业应用一定有自己的标准。鲜活度达不到这个行业标准的数据分析的价值不大; e) 难分析(Variability):多种选择已经对多种变量的不同解释让确定分析结果的准确性变得很困难; f) 有价值(Value):这一点是毋庸置疑的,但要真正想清楚数据价值一定得对业务有深厚的理解。 Forrester给出的定义

Forrester defines big data as referring to techniques and technologies that make handling data at extreme scale affordable. 大数据是这样一种技术,能够用可负担的代价处理极端规模的数据。
refer from: http://blogs.forrester.com/brian_hopkins/11-09-30-big_data_will_help_shape_your_markets_next_big_winners

微软的定义 微软对大数据的解释与下面这个Forrester的4V示意图很近似,但横纵轴做了交换,并且在坐标中给出了业务分类和数据量的说明。

refer from: http://blogs.forrester.com/brian_hopkins/11-08-29-big_data_brewer_and_a_couple_of_webinars

IDC的定义 本质与以上定义没有区别,但表达得像一个流程图: 1. 首先必须具备三者之一的特征 - 采集到的数据>100TB - 高速流传输 - 每年数据增长量>60% 2. 然后必须部署在采取水平扩充的基础架构上 3. 具备多种格式/不同数据源或数据内容频繁变化 4. 最终统一到4V的大数据技术 - Volume - Variety - Velocity - Value

Informatica的定义

大数据是海量交易数据,海量交互数据,和海量数据处理的统称