HI,下午好,欢迎来到微信公众号转让!
24小时服务热线: 4000-163-301
请扫码咨询

新闻动态

NEWS CENTER

对于业务数据变动的控制应该保证数据仓库中数据抽取是最新数据

2020-12-04

两张表中都存储了用户电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。

解决办法是,注意数据抽取的规则,对于业务数据变动的控制应该保证数据仓库中数据抽取是最新数据。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。

对于是否过滤、是否修正一般要求客户确认;对于过滤掉的数据,写入 Excel 文件或者将过滤数据写入数据表,在 ETL 开发的初期可以每天向业务单位发送过来数据的邮件,促使他们尽快的修正错误,同时也可以作为将来验证数据的依据。

数据清洗需要注意的是不要将有用的数据过滤掉了,对于每个过滤规则认真进行验证,并要用户确认才行。

2) 数据转换

数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算等。

  • 不一致的数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个用户在用户管理系统的编码是 XX0001 ,而在订单系统的编码是 YY0001 ,这样在抽取过来之后统一转换成一个编码;
  • 数据粒度的转换:业务系统一般存储粒度较小的数据,而数据仓库中的数据是用来分析的,不需要粒度很小的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合;
  • 商务规则的计算:不同的企业有不同的业务规则,不同的数据指标,这些指标有时候不能简单的加加减减就能完成,这个时候需要在 ETL 中将这些数据指标计算好了之后存储在数据仓库中,供分析使用。

2.3 元数据

所谓 “元数据”(Meta Data),就是关于数据仓库中数据的数据。

它是关于数据仓库中数据、操作数据以及应用程序的结构和意义的描述信息。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。

广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。

元数据是整个数据仓库的核心部件,元数据管理器是企业级数据仓库中的关键部件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

将数据仓库功能区域包括数据获取、数据存储和信息传递三个部分,按照这三个功能区域可以相应地将元数据分为数据获取区域元数据、数据存储区域元数据和信息传递区域元数据。

2.3.1 数据获取区域元数据

在这个区域中,数据仓库的处理过程主要包括数据抽取、数据转换、数据清洗、数据集成、数据准备五项功能。

这些处理过程是通过相应的工具完成的,在这些处理过程进行时,相应的工具就记录下了与这些处理相关的元数据。在以后的数据仓库维护和管理过程中,技术人员也将使用这些已记录下来的元数据管理和监控正在运行的功能。

2.3.2 数据存储区域元数据

在这个区域中,数据仓库的处理过程主要包括数据装载、数据存储、数据管理三项功能。

这些处理过程同样是通过相应的工具完成的,在这些处理过程进行时,相应的工具就记录下了与这些处理相关的元数据。

数据仓库的管理员在进行完全数据刷新和数据增量装载中会用到这些元数据;在数据备份、恢复的处理中,以及对数据仓库的清理和数据定期归档中也需要用到这些元数据。对用户来说,也有可能用到这些元数据。

2.3.3 信息传递区域元数据

在这个区域中,数据仓库的处理过程主要包括报表生成、查询处理、复杂分析三项功能。

信息传递区域的处理过程主要是为最终用户服务的,所记录的元数据为用户提供预定义查询和预定义报表解疑,定义了用户查询和报表生成需要输入的相关参数,也包括与 OLAP 相关的元数据,系统的开发者和管理员都会参加这个区域的处理过程。

在该区域中,当用户在查询处理工具的辅助下构建一条查询时,也会引用数据获取区域和数据存储区域中记录的元数据。


元数据定义了数据仓库中的数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体。

2.4 数据集市

数据集市(Data Market,DM)是为企业特定部门的决策支持而组织起来的一批数据和业务规划。

它是一种小型的、部门级数据仓库,习惯上称之为 “主题域” ,企业的不同部门有不同的 “主题域” ,因而就有不同的数据集市。

数据集市有两种类型:独立型数据集市(Independent Data Mart)和从属型数据集市(Dependent Data Mart)。

独立型数据集市的实质,是为了满足企业内各部门的分析需求而建立的微型数据仓库。

有些企业在实施数据仓库项目时,为了节省投资,尽快见效,针对不同部门的需要,分布建立起这类数据集市,已解决一些较为迫切的问题。

但是,当多个独立的数据集市增长到一定规模后,由于没有统一的数据仓库协调,企业只会又增长出一些新的信息孤岛,仍然不能以整个企业的视角来分析数据。


从属型数据集市的内容并不直接来自外部数据源,而是从数据仓库中得到。在数据仓库内部,数据根据分析主题,划分成若干个子集,进行组织、存放。

这种面向某个具体的主题而在逻辑上或物理上进行划分所形成的数据子集,就是从属型数据集市。数据划分成集市之后,在进行某个确定主题的分析时,可以有效缩小数据的检索范围,明显提高工作效率。


3. 数据仓库的四个基本特征

3.1 面向主题

传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。

主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据。

比如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于 “上一季度谁是我们这款产品的最佳用户” 这样的问题。

这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。

主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。