数据仓库的定义以及特征(数据仓库基本概念)
业务板块定义了数据仓库的多种命名空间,是一种系统级的概念对象。当数据的业务含义存在较大差异时,你可以创建不同的业务板块让各成员独立管理不同的业务,后续数据仓库的建设将受到业务板块的约束。Pulsar中,项目可以归属至业务板块以实现规范建模功能,在同一个业务板块中可能包含多个不同的项目,所以业务板块与项目的关系为1:N。
主题域主题域主要用于存放同一业务板块内不同概念的指标。例如,你可以划分出商品域、交易域、会员域等,用于存放不同意义的指标。
业务过程业务过程即业务活动中所有的事件,一般为不可拆分的事件。创建业务过程,是为了从顶层视角,规范业务中的事务内容的类型及唯一性。
维度维度即进行统计的对象。通常情况下,维度是实际存在、不因事件发生就存在的实体。Pulsar中遵循的是Ralph Kimball的维度建模理论,创建维度,即从顶层规范业务中实体(或称主数据)的存在性及唯一性。维度及维度组合,也是派生指标的统计粒度。
指标指标分为原子指标和派生指标,后者是以前者为基准,组装统计粒度、统计周期及业务限定生成。
原子指标是对指标统计口径、具体算法的一个抽象。根据计算逻辑复杂性,Pulsar将原子指标分为两种:
-
原生的原子指标:例如支付金额。
-
衍生原子指标:基于原子指标组合构建。例如,客单价为支付金额除以买家数。
派生指标是业务中常用的统计指标。为保证统计指标标准、规范、无二义性地生成,OneData方法论将派生指标抽象为四部分:派生指标=原子指标 业务限定 统计周期 统计粒度。
业务限定统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间),原子指标是计算逻辑的标准化定义,业务限定则是条件限制的标准化定义。
统计周期统计的时间范围,也可以称为时间周期。例如最近1天、最近30天等(类似于SQL中where后的时间条件)。
统计粒度统计分析的对象或视角,定义数据需要汇总的程度,可以理解为聚合运算时的分组条件(类似于SQL中group by的对象)。粒度是维度的一个组合,指明你的统计范围。例如,某个指标是某个卖家在某个省份的成交额,则粒度就是卖家、省份这两个维度的组合。如果你需要统计全表的数据,则粒度为全表。在指定粒度时,你需要充分考虑到业务和维度的关系。统计粒度也被称为粒度,是维度或维度组合,一般用于派生指标构建,是汇总表的唯一性识别方式。
各基本概念之间的关系如下图所示:
以销售主题为例,说明在数据处理过程中的数仓各层:
本文作者:CIO之家的朋友 来源:CIO之家的朋友们
CIO之家 www.ciozj.com imciow
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。