大数据到底是什么(大数据究竟大在哪)
公众号:大数据学苑
今日分享热词:大数据(Big Data)
为什么要首先分享这一个词呢?一是因为它热,热到大家都把他当做谈资,二是因为大数据正是数据挖掘及分析的对象,也利于理解以后分享的内容。
一起来了解下大数据的前世今生:
一、 大数据的定义:
大数据这一个词的出现,在上世纪80年代就有美国人曾提出来,直到
2008 年 9 月,《科学》杂志发表文章“Big Data: Science in the Petabyte Era”,“大数据”这个词才开始广泛传播。
小编从网上找了以下几个关于大数据的定义:
1:Wikipedia:
Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them.
也就是说无法利用传统的数据处理软件来处理的大且复杂的数据集
2:IBM:
Big Data is being generated at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Much of this data is coming to us in an unstructured form, making it difficult to put into structured tables with rows and columns.
主要强调了大数据是时时刻刻在产生,产生的途径比如我们常见的社交媒体、穿戴设备、传感器等,同时也强调了其非结构化特征,很难存储于结构化的数据库中。
3:全球知名咨询公司麦肯锡是这样定义的:
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。
以上几个定义是有交集的,也就是大数据的普遍定义了:量大复杂、无法用传统的手段来处理。
下面再说一下大数据的特征,会更利于理解
二、 大数据的特征:
关于大数据的特征也是有很多说法,好的是是前后继承发展的
1:The concept gained momentum in the early 2000s when industry analyst Doug Laney articulated the now-mainstream definition of big data as the three Vs:
这个3V特征是最先主流的一种说法:
Volume(数据体量大). Organizations collect data from a Variety of sources, including business transactions, social media and information from sensor or machine-to-machine data. In the past, storing it wouldve been a problem – but new technologies (such as Hadoop) have eased the burden.
数据来源渠道多,商业交易终端、社交媒体、传感器,举几个咱们熟悉的例子,比如超市的收银、pose机、RFID手持终端,社交媒体比如QQ、微信、微博等、还有一些运动传感器、手环等等,这些设备都是海量数据的来源。在以往是没有这些数据的,而现在有了,但是以前的数据处理器处理软件已经跟不上这些需要,必须要有新的设备,比如文中提到的Hadoop【Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。】
Velocity(处理速度快). Data streams in at an unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time.
处理速度快主要强调了数据的时效性,这主要是讲的流式数据的时效性,也就是上一秒数据产生,下一秒就要把这些数据的影响分析出来。
Variety(数据种类多). Data comes in all types of formats – from structured, numeric data in traditional databases to unstructured text documents, email, video, audio, stock ticker data and financial transactions.
种类多主要是强调数据的分类:结构化、非结构化、还有一种分类是半结构化
对于这个结构化非结构化的区别,曾在研究生期间课堂上请教过老师,具体是这样:结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据(二维表结构可以理解为Excel表那样,通过坐标就可确定一个值))、非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
2:在后来的发展过程中,大数据的特征又有所发展
Value(低价值性)可以这样理解:某交通路口的交通灯,基本上全年全天候监控,这产生的数据量是非常大的,而对官方来说真正有用的可能就是出现事故、闯红灯事的那些时间,所以其价值密度是很低的。
Veracity(真实性)主要包括数据的可信性、真伪性、来源和信誉、有效性等。
1、2这5V特征基本概括了大数据的所有特征,当然不否认后来还会有学者提出。
以上的5维特征可能主要流行于学术界,我读paper是接触到的是这些说法,直到今天科学上网登Wikipedia时,不才才发现还有另一种特征的提法:
3:Factory work and Cyber-physical systems may have a 6C system:
Connection (sensor and networks)关联性
Cloud (computing and data on demand)云计算特征
Cyber (model and memory)网络特征
Content/context (meaning and correlation)文本特征
Community (sharing and collaboration)社交性
Customization (personalization and value)独特性
这种特征法可能更适合于工业界、物理网络空间
希望以上的分享会有助于大家对大数据这一概念有所了解
Reference引用:
[1]https://en.wikipedia.org/wiki/Big_data
[2]https://www.ibm.com/analytics/us/en/big-data/
[3]https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
[4]https://en.wikipedia.org/wiki/Big_data#Characteristics
[5]大数据研究综述;陶雪娇,胡晓峰,刘洋;国防大学信息作战与指挥训练教研部
获取参考文献原文请关注公众号:大数据学苑
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。