云计算与大数据应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 大数据的基本知识

一、狭义的大数据

受早期研究者将数据作为一种工具思想的影响,很多研究机构和学者一般将大数据作为一种辅助工具或者从其体量特征来进行定义。

高德纳(Gartner)咨询管理公司数据分析师认为,大数据具有一种在正常的时间和空间范围内,常规的软件工具难以计算、提出相关数据分析的能力。

作为大数据研究讨论先驱者的咨询公司麦肯锡,在其大数据的研究报告《大数据:创新、竞争和生产力的下一个前沿》(Big Data:The next frontier for innovation,competition and productivity)中根据大数据的数据规模来对其诠释。它给出的定义是:大数据指的是规模已经超出了传统的数据库软件工具收集、存储、管理和分析能力的数据集。需要指出的是,麦肯锡在其报告中同时强调,大数据并不能音译为超过某一个特定的数字,或是超过某一个特定的数据容量才能命名为大数据,大数据随着技术的不断进步,其数据集容量也会不断的扩大,行业的不同也会使大数据的定义不同。

电子商务行业的巨人亚马逊的专业大数据专家对大数据的定义:大数据,指的是超过了一台计算机的设备、软件等处理能力的数据规模、资料讯息海量的数据集。

日本夜村综合研究所的著名学者城田真琴和朱四明在其专著《大数据的冲击》中通过对大数据的起源进行探讨后,在关于什么是大数据中给出的定义为:大数据,指的是通过运用现有的一般技术而难以进行管理的大量数据集的集合。

简以概之,对于大数据的狭义理解,研究者大多从微观的视角出发,将大数据理解为当前的技术环境难以处理的一种数据集或者能力;而从宏观方面进行定义的,研究者们目前还没有提出一种可量化的内涵理解,但多数学者都提出了对大数据的宏观理解,未来还需要保持大数据在不同行业领域不断更新、可持续发展的观念。

二、广义的大数据

以对大数据进行分析管理,挖掘数据背后所蕴含的巨大价值为视角,对大数据的概念进行定义被认为是广义大数据的概念。

维基百科对大数据给出的定义是:巨量数据,或称为大数据、大资料,指的是所涉及的数据量规模巨大到无法通过当前的技术软件和工具在一定的时间内进行截取、管理、处理,并整理成为需求者所需要的信息进行决策。

被誉为“大数据时代的语言家”的维克托·迈尔·舍恩伯格、肯尼思·库克耶在其专著《大数据时代:生活、工作与思维的大变革》中对大数据的定义为:大数据是人们获得新的认知、创造新的价值的源泉;大数据还未改变市场、组织机构,以及政府与公民关系服务。他们还认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模的数据基础上是无法完成的。

IBM组织对于大数据的定义则是根据大数据的特征进行诠释,它认为大数据具有“3V”特征,即:数据量(volume)、种类(variety)和速度(ve locity),故大数据是指容量难以估计、种类难以计数且增长速度非常快的数据。

国际数据公司(IDC)则在IBM的基础上,根据自己的研究,将“3V”发展为“4V”,认为大数据具有四方面的特征:数据规模巨大(volume),数据的类型多种多样(variety),数据的体系纷繁复杂(velocity),数据的价值难以估测(value)。所以ibm对大数据的定义为:大数据,指的是海量规模、类型多样、体系纷繁复杂且需要超出典型的数据库软件进行管理还能够给使用者带来巨大价值的数据集。

对关于大数据的定义进行梳理,我们可以发现,大多研究机构和学者对大数据的定义普遍从数据的规模量,以及对数据的处理方式出发,并且其数据的定义也多是从自身的研究视角出发的,因此人们对于大数据的定义可谓是仁者见仁,智者见智。

我们在参照了学术领域及各个研究机构和行业的基础上,将大数据定义为:大数据,指在信息爆炸时代所产生的巨量数据或海量数据,并由此引发的一系列技术及认知观念的变革。它不仅仅是一种数据分析、管理以及处理方式,也是一种知识发现的逻辑,通过将事物量化成数据,对事物进行数据化研究分析。大数据的客观性、可靠性,既是一种认识事物的新途径,又是一种创新发现的新方法。

三、大数据的特征

特征是对某一类事物区别于其他事物特性的抽象结果总结。对于大数据的特征的全面理解至少应从大数据的数据特征、技术特征以及其应用特征三方面进行。当前对于大数据的特征理解较为流行的是参照IDC的“4V”特征:数据类型(variety)、速度(velocity)、体量(volume)、数据价值(value)。我们在此参照当前的主流说法,按照“4V”特征来理解大数据,即大数据体量巨大(volume),数据种类繁多(variety),数据处理与流动速度快(velocity),数据价值密度低(value)。

(一)大数据体量巨大

当万物皆数变成万事皆数,我们的世界已逐渐被数据包围。按数据的储存对象来分可分为环境数据、医疗数据、金融数据、交通数据等。按照数据的结构进行划分,我们存储的数据除了结构化数据外,还包括各类非结构化数据(音像、方位、点击流量),半结构化数据(电子邮件、办公处理文档)等。衡量数据量的单位从MB转向TB再转向PB,甚至逐渐地转向ZB,以及今后会出现更高级别的数据量单位。人类社会的数据量巨大是大数据的基本属性。互联网、物联网、科学研究等源源不断产生的数据使得数据的规模呈现爆炸式的增长。

(二)大数据类型多样

数据类型多样、复杂多变是大数据的一个重要特性。多样性的大数据也正是大数据价值所在,多样化的数据类型和数据来源,为分析数据间相关性,挖掘数据间的价值提供了可能。

随着物联网、智能终端以及移动互联网的飞速发展,各类组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

数据格式的多样化与数据来源的多元化为人类处理这些数据带来了极大的不便。大数据时代所引领的数据处理技术,不仅为挖掘这些数据背后的巨大价值提供了方法,也为处理不同来源、不同格式的多元化数据提供了可能;以往的数据量尽管巨大,但以结构化数据为主。这种数据一般运用关系型数据库作为工具,通过计算机软件和设备很容易进行处理。结构化数据是将某一类事物的数据数字化以便于我们进行存储、计算、分析、管理。在某种情况下可以忽略一些细节,专注于选取有意义的资讯信息。处理这类数据,只需确定好数据的价值,设置好各个数据间的格式,构建起数据间的相互关系,进行保存即可,一般不需要进行更改。数据世界发展到目前,使得非结构化数据超越结构化数据,非结构化数据具有大小、内容、格式等结构不同,不能用一定的结构来进行框架搭建的特点,如我们在上网冲浪的过程中所看的电影视频、旅游过程中上传的照片、朋友圈发的说说、记录的微博等都是非结构化数据。人们日常工作中接触的文件、照片、视频都包含大量的数据,蕴含大量的信息。有机构进行的统计显示,在一个企业组织结构中,目前非结构化数据已占据了总数据量的75%以上,也有研究机构认为在85%以上。目前虽然在这方面还没有一个精准、权威的统计数据,但足以说明非结构数据的增长速度不容小觑。

(三)数据处理与流动速度快

如果将大数据的速度仅限定为数据的增长率的话就错了。这里的速度应动态地理解为对数据的处理速度与数据的流动速度。大数据对数据的处理要求为马工枚速,这也是大数据与传统数据处理的不同之处。

智能终端、物联网、移动互联网的普遍运用,个人所产生的数据,都会使数据呈现爆炸式的增长。新数据不断涌现,旧数据的快速消失,都对数据处理的要求提出了硬性的标准。只有做到对数据的处理速度跟上甚至是超越大数据的产生速度,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。在数据处理速度方面,有一个著名的“1秒定律”,即大数据下,很多情况下都必须在1秒钟或者瞬间形成结果,否则处理结果就是过时和无效的。对大数据要求快速、持续的实时处理,也是大数据与传统海量数据处理技术的关键差别之一。

此外,数据不是静止不动的,而是在移动互联网、设备中不断流动的,数据的流动消除了“数据孤岛”现象,通过数据如水一般在不同的存储平台之间自由流动,将数据在合理的环境下进行存储,使各类组织不仅能够存储数据,而且能够主动管理数据。但也应该看到,对于这样的数据,仍然需要得到有效的处理,才能避免其失去价值。

(四)数据价值密度低

数据采集的不及时、样本的不全面、数据的不连续、数据失真等问题都可能导致大数据的价值密度低,但数据的价值密度低还可能来源于对非结构化数据的处理。传统的结构化数据,尽管其样本量比较小,但是在对结构化数据的处理上,是对该事物的抽象,每一条数据大多包含了使用者需要的信息。在大数据时代下,尽管拥有海量的信息,但是真正可用的数据信息只有一小部分,对于数据的处理不需要归纳抽象,直接保持着数据的全貌,因此也保留了大量的无用甚至可能是错误的信息。因此,如果将大数据比喻为石油行业的话,那么在大数据时代,重要的不是如何进行炼油(分析数据),而是如何获得优质原油(优质元数据)。

以当前广泛应用的监控视频为例,在连续不间断监控过程中,大量的视频数据被存储下来,许多数据可能是无用的,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅只有一两秒,大量不相关的视频信息增加了获取这有效的一两秒数据的难度。

尽管数据价值密度低为我们带来很多不便,但应该注意的是,大数据的数据密度低是指相对于特定的应用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用是无效的信息,对于另外一些应用则可能成为最关键的信息,数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响。比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此为了保证新产生的应用有足够的有效信息,通常必须保存所有数据,这样就使得一方面数据的绝对数量激增,另一方面数据量达到一定规模,可以通过更多的数据获得更真实全面的反馈。

思考题

1.阐述云计算与大数据的基本定义。

2.云计算的基本框架有哪几部分?

3.狭义大数据与广义大数据的不同点有哪些?

4.大数据的“大”体现在哪些方面?