数据仓库架构到底是怎么设计的,意义是什么?

元数据管理

概述

元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。

元数据在构建数仓过程中,定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

元数据类型

1.业务元数据

业务元数据指从业务角度描述业务领域相关的概念、关系和规则的数据,包括业务术语和业务规则等信息。

2.技术元数据

技术元数据指描述系统中技术细节相关的概念、关系和规则的数据,包括对数据结构、数据处理方面的描述,以及数据仓库、ETL、前端展现等技术细节方面的信息。

技术元数据又细分为:

  1. 数据源元数据
  2. ETL元数据
  3. 数据仓库元数据
  4. BI元数据

3.管理元数据

管理元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。

元数据获取途径

  1. 外部数据源

主要有源系统、ETL工具、报表工具的元数据

  1. 数据仓库

数据库物理模型的元数据

  1. 手工补录

主要有Mapping文档、任务配置、业务规则、业务术语、业务人员手工补录的数据,大多数是规则明确的业务数据

元数据功能

血缘分析: 向上追溯元数据对象的数据来源。

影响分析:向下追溯元数据对象对下游的影响。

同步检查: 检查源表到目标表的数据结构是否发生变更。

指标一致性分析: 定期分析指标定义是否和实际情况一致。

实体关联查询: 事实表与维度表的代理键自动关联

元数据应用

ETL自动化管理: 使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。

数据质量管理: 使用数据质量规则元数据进行数据质量测量。

数据安全管理: 使用元数据信息进行报表权限控制。

数据标准管理: 使用元数据信息生成标准的维度模型。

数据接口管理: 使用元数据信息进行接口统一管理。

数据质量管理

概述

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。

数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

数据质量产生的根本原因

  1. 源系统:源系统的数据结构发生变化,这是常有的事,数据仓库只是数据存储中心,而源系统的改变会造成数据仓库中数据质量发生变化
  2. ETL:源系统业务流程发生了变更
  3. 业务需求:
    • 源系统数据录入错误或者延迟
    • 源系统随着时间的推移,数据发生了演变
    • 需求不明确或者满足不了客户需求
    • ETL映射规则错误
    • ETL程序错误
    • 数据没有及时到达或者依赖关系错误
    • 源系统的业务数据与业务需求发生冲突

数据质量面临的挑战

数据的污染是在数据仓库中处理的,延伸出去就形成了专业的数据治理,但是数据的污染却在数据仓库之外发生的,所有必须要清楚数据的污染源有哪些:

系统转换:源系统的系统升级、转换、迁移是数据污染的重要原因

数据老化:在经历一代又一代的系统升级、转换、迁移,历史数据往往无法满足当时时间的业务需求

复杂的系统集成:源系统种类繁多,关系日渐复杂,出现污染数据的可能性越来越大

拙劣的数据库设计: 坚持实体完整性和参考完整性规则可以防止一些数据污染,但是目前数据仓库存在两种观点:注重模型、注重集市,围绕业务进行数据库设计,这两种观点与传统的十大主题设计存在矛盾点。

数据输入的不完整性:源系统的数据输入是数据污染的主要来源,信息输入错误会给数据仓库模型建立造成很大的压力

缺乏数据治理相关的政策:如果一个公司对数据质量没有明确的相关政策,那么他的数据质量不可能得到保证

数据质量的指标

准确性

准确性要求数据能够正确描述客观世界。比如某用户姓名拼音mu chen错误的录入成了muc hen,就应该弹出警告语;

唯一性(视情况而定)

唯一性要求数据不能被重复录入,或者不能有两个几乎相同的关系。比如张三李四在不同业务环境下分别建立了近乎相同的关系,这时应将这两个关系合并;

完整性

完整性要求进行数据搜集时,需求数据的被描述程度要高。比如一个用户的购买记录中,必然要有支付金额这个属性;规则验证。

一致性

一致性要求不同关系、或者同一关系不同字段的数据意义不发生冲突。

比如某关系中昨天存货量字段+当天进货量字段-当天销售量字段等于当天存货量就可能是数据质量有问题;

及时性

及时性要求数据库系统中的数据”保鲜”。比如当天的购买记录当天就要入库;

统一性

统一性要求数据格式统一。比如nike这个品牌,不能有的字段描述为”耐克”,而有的字段又是”奈克”;

元数据的作用

在数据仓库中,元数据的主要作用如下。

  • (1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。
  • (2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。
  • (3)记录业务事件发生而随之进行的数据抽取工作时间安排。
  • (4)记录并检测系统数据一致性的要求和执行情况。
  • (5)评估数据质量。

评论