大数据基本概念及特征（大数据定义及其特征）

开心第一 2023-07-06 17:43:24

收藏赞

大数据基本概念及特征（大数据定义及其特征）(1)

1、大数据定义及其特征

大数据的概念最早于20世纪90年代提出，根据维基百科定义，是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理、处理的数据集合。从产业的角度，常常把这些数据与采集它们的工具、平台、分析系统等一起被称为大数据。在2012年瑞士达沃斯世界经济论坛上，大数据是框定的主题之一，该论坛发表的报告《大数据，大影响》中提出，数据已经成为一种新型的经济资产，就像货币或者黄金一样。需要特别指出的是，大数据和海量数据是有区别的：大数据包含了海量数据的含义，而且在内容上超越了海量数据，简言之，大数据等于“海量数据复杂类型的数据”。

总结起来，大数据的特征主要体现为大量化、多样性、快速化、价值化和复杂性（简称“4V 1C”）：（1）数据体量大（Volume）。从GB、TB级跃升到PB（1PB=1024TB）乃至EB（1EB=1024PB）级别。到目前为止，人类生产的所有印刷材料的数据量是200PB，而历史上全人类说过的所有的话的数据量大约是5EB；（2）数据类型繁多（Variety）。被分为结构化数据、半结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，超过80%的数据都是非结构化数据，如视频监控数据、流媒体数据、RFID感应数据等；（3）价值密度低（Value）。单条数据并无太多价值，但庞大的数据中蕴含着巨大的价值。数据价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是目前大数据背景下亟待解决的难题；（4）处理速度快（Velocity）。这是大数据区分于传统数据挖掘最显著的特征。如物联网每秒都在采集数据，微博内容随时都在更新，处理速度达到每小时10TB或更高；（5）复杂程度高（Complexity）。综合以上四个方面特征，对数据的处理和分析更加艰巨、更加复杂。

2、大数据相关技术

Hadoop是Apache开源组织的一个分布式计算框架，是Map Reduce的第一个开源实现，被认为是应对大数据难题的利器。Hadoop可以在大量廉价的硬件设备组成的集群上运行应用程序，为应用程序提供一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。内存计算是一个软硬件结合体，能够提供高性能的数据查询功能，将数据库直接装入内存运算，减少了数据交换时间，大大提高了数据的处理能力，使用户可以直接对大量实时业务数据进行查询和分析。随着内存价格的下降，下一代的内存计算时代即将来临。NoSQL是Not Only SQL的缩写，不一定遵循传统数据库的一些基本要求，相比传统数据库，叫它分布式数据管理系统更贴切，数据存储更简化更灵活，重点被放在了分布式数据管理上，用以满足对数据库高并发读写的需求；对海量数据的高效率存储和访问的需求；对数据库的高可扩展性和高可用性的需求。此外，微软、IBM、Oracle、SAS等公司也都提出了大数据相关解决方案。

3、企业应具备的大数据能力

经过对大数据特点与应用现状，我们发现对大数据的价值发现将依赖于以下三个基础能力：（1）全面获取数据的能力。发掘数据价值的基础是对海量异构数据的全面获取，包括从专业系统、生产系统、管理系统中直接获取数据、从油田、炼厂、管道、加油站的各类传感器采集数据、从互联网络、智能终端等实时收集数据，完善的数据收集和优化的数据存储管理体系，将能为数据价值发掘提供更为广阔的空间，在提高价值发现概率的同时降低数据存储成本。（2）高效处理数据的能力。发掘数据价值的保障是具备高效的数据处理技术，通过借助先进的数据建模分析工具、可扩展的并行计算能力和灵活的数据交互展示平台，数据价值研究人员建立复杂的数学算法模型，并快速完成所需的大量的计算任务，并以最便于观察和分析的形式展示出来，将能够缩短数据研究周期，提升价值发现的效率。（3）综合研究数据的能力。发掘数据价值的核心在于提高数据分析和研究的水平，能够从“大数据”中找到问题、发现规律、不断得到新的价值发现。对其研究将不再是单个部门能够胜任的工作，需要相关行业专家、业务人员与技术人员的共同参与，尤其需要数据科学家、数据分析师等专业人才，通过不断丰富业务分析与优化工具、行业模型、方法论，持续拓展数据应用空间，发掘数据应用潜力，实现高水平的数据整合应用。

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。

猜您喜欢

寻茶记红茶制作过程（寻茶记版凤凰单丛之制茶篇）

从茶青到茶汤一壶醇香需走过多少历练单丛制作流程每个工序须需根据茶青质地气候变化等因素灵活掌握是一门不...

死亡之音 2023-07-06 17:09:07
西部数据1tb固态硬盘参数（西部数据移动硬盘测评）

无论是工作还是学习都会需要存储文件这项工作，这就少不了移动硬盘啦！拥有一款合适大小的移动硬盘会为我们的生活带来更多便利，...

巴黎夜雨 2023-07-06 17:13:18
西数哪一个盘适合移动硬盘（大容量移动的存储设备如何选购）

大家最近一次使用U盘是什么时候？我个人感受是，以前的U盘经常用着就突然不能读盘，或者上传的很慢，哪怕是USB3.0的...

跋涉万里路 2023-07-06 17:47:20
西部数据随行版1t移动硬盘测评（西部数据4TB移动硬盘评测）

数据的价值是不可估量的，珍贵的照片和视频，凝聚着我们的回忆。极富创意的工作成果，脑洞大开的idea，都是我们的心血。这些...

四季的轮回 2023-07-06 17:41:16
pcie 4.01t固态硬盘推荐（速度不仅能上2000MBs还有RGB灯效）

对于PC用户而言，目前要想以较低的成本获得高性能移动存储设备，采用USB 3.2 Gen 2x2接口的移动固态硬盘可能是...

忘川之颠 2023-07-06 17:28:05
骁龙855的手机哪款性价比较高（哪个才是性价比最高的）

最近3000元档位的手机，出现了很多高性价比的骁龙855。这问题就来了，选择太多，很纠结。没关系，还有黑...

小代不好混 2023-07-06 17:40:14
国产电动工具十大品牌排行榜（国产电动工具也有小骄傲）

熟悉电动工具的小伙伴，或许更喜欢德国的泛音、博世、麦太保、日本的牧田、美国史丹利等等，但是也不要忘记了，我们国产电动工具...

深碎爱人 2023-07-06 17:07:21

秒懂生活

大数据基本概念及特征（大数据定义及其特征）

猜您喜欢

寻茶记红茶制作过程（寻茶记版凤凰单丛之制茶篇）

西部数据1tb固态硬盘参数（西部数据移动硬盘测评）

西数哪一个盘适合移动硬盘（大容量移动的存储设备如何选购）

西部数据随行版1t移动硬盘测评（西部数据4TB移动硬盘评测）

pcie 4.01t固态硬盘推荐（速度不仅能上2000MBs还有RGB灯效）

骁龙855的手机哪款性价比较高（哪个才是性价比最高的）

国产电动工具十大品牌排行榜（国产电动工具也有小骄傲）

热门推荐

排行榜