首页 欧洲联赛正文

别克君越,数据库的升级版:数据仓库,俄罗斯地图

一、数据库房的概念

什么是数据库房

数据库房,英文名称为Data Warehouse,可简写为DW或DWH。数据库房,是为企业一切等级的决议计划拟定进程,供给一切类型数据支撑的战略调集。它出于剖析性陈述和决议计划支撑意图而创立。为需求事务智能的企业,供给辅导事务流程改进、监督时刻、本钱、质量以及操控。

数据库房精干什么?

1)年度出售方针的指定,需求依据以往的前史报表进行决议计划,不能拍脑袋。

2)怎么优化事务流程

例如:一个电商网站订单的完结包括:阅读、下单、付出、物流,其间物流环节或许和中通、申通、韵达等快递公司协作。快递公司每派送一个订单,都会有订单派送的承认时刻,能够依据订单派送时刻来剖析哪个快递公司比较便利高效,然后挑选与哪些快递公司协作,除掉哪些快递公司,增加用户友爱型。

数据库房的特色

1)数据库房的数据是面向主题的

与传统数据库面向运用进行数据安排的特色相对应,数据库房中的数据是面向主题进行安排的。什么是主题呢?首要,主题是一个笼统的概念,是较高层次上企业信息体系中的数据归纳、归类并进行剖析运用的笼统。在逻辑意义上,它是对应企业中某一微观剖析范畴所触及的剖析方针。面向主题的数据安排办法,便是在较高层次上对剖析方针的数据的一个完好、共同的描绘,能完好、共同地刻划各个剖析方针所触及的企业的各项数据,以及数据之间的联络。所谓较高层次是相对面向运用的数据安排办法而言的,是指依照主题进行数据安排的办法具有更高的数据笼统等级。

2)数据库房的数据是集成的

数据库房的数据是从原有的涣散的数据库数据抽取来的。操作型数据与DSS剖析型数据之间不同甚大。榜首,数据库房的每一个主题所对应的源数据在原有的各涣散数据库中有许多重复和不共同的当地,且来历于不同的联机体系的数据都和不同的运用逻辑绑缚在一起;第二,数据库房中的归纳数据不能从原有的数据库体系直接得到。因而在数据进入数据库房之前,必定要经过共同与归纳,这一步是数据库房建造中最要害、最杂乱的一步,所要完结的作业有:

(1)要共同源数据中一切矛盾之处,如字段的同名异义、异名同义、单位不共同、字长不共同等。

(2)进行数据归纳和核算。数据库房中的数据归纳作业能够在从原有数据库抽取 数据时生成,但许多是在数据库房内部生成的,即进入数据库房今后进行归纳生成的。

3)数据库房的数据是不行更新的

数据库房的数据首要供企业决议计划剖析之用,所触及的数据操作首要是数据查询,一般状况下并不进行修正操作。数据库房的数据反映的是一段适当长的时刻内前史数据的内容,是纷歧起点的数据库快照的调集,以及依据这些快照进行计算、归纳和重组的导出数据,而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到数据库房中,一旦数据库房寄存的数据现已超越数据库房的数据存储期限,这些数据将从当时的数据库房中删去。因为数据库房只进行数据查询操作,所以数据库房办理体系比较数据库办理体系而言要简略得多。数据库办理体系中许多技能难点,如完好性保护、并发操控等等,在数据库房的办理中简直能够省去。可是因为数据库房的查询数据量往往很大,所以就对数据查询提出了更高的要求,它要求选用各种杂乱的索引技能;一起因为数据库房面向的是商业企业的高层办理者,他们会对数据查询的界面友爱性和数据表明提出更高的要求。

4)数据库房的数据是随时刻不断改动的

数据库房中的数据不行更新是针对运用来说的,也便是说,数据库房的用户进行剖析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据库房开端到终究被删去的整个数据生计尤靖茹几岁周期中,一切的数据库房数据都是永久不变的。

数据库房的数据是随时刻的改动而不断改动的,这是数据库房数据的第四个特征。这一特征体现在以下3方面:

(1)数据库房随时刻改动不断增加新的数据内容。数据库房体系有必要不断捕捉OLTP数据库中改动的数据,追加到数据库房中去,也便是要不断地生成OLTP数据库的快照,经共同集成后增加到数据库房中去;但关于的确不再改动的数据库快照,假如捕捉到新的改动数据,则只生成一个新的数据库快照增加进去,而不会对原有的数据库快照进行修正。

(2)数据库房随时刻改动不断删去旧的数据内容。数据库房的数据也有存储期限,一旦超越了这一期限,过期数据就要被删去。仅仅数据库房内的数据时限要远远善于操作型环境中的数据时限。在操作型环境中一般只保存有60~90天的数据,而在数据库房中则需求保存较长时限的数据(如5~10年),以习惯DSS进行趋势剖析的要求。

(3)数据库房中包括有许多的归纳数据,这些归纳数据中许多跟时刻有关,如数据常常依照时刻段进行归纳,或隔必定的时刻片进行抽样等等。这些数据要跟着时刻的改动不断地进行从头归纳。因而,数据库房的数据特征都包括时刻项,以标明数据的前史时期。

二、数据库房开展进程

数据库房的开展大致阅历了这样的三个进程:

1 简略报表阶段

这个阶段,体系的首要方针是处理一些日常的作业中事务人员需求的报表,以及生成一些简略的能够协助领导进行决议计划所需求的汇总数据。这个阶段的大部分体现方法为数据库和前端报表东西。

2 数据集市阶段

这个阶段,首要是依据某个事务部门的需求,进行必定的数据的收集,收拾,依照事务人员的需求,进行多维报表的展示,能够供给对特定事务辅导的数据,并且能够供给特定的领导决议计划数据。

3 数据库房阶段

这个阶段,首要是依照必定的数据模型,对整个企业的数据进行收集,收拾,并且能够依照各个事务部门的需求,供给跨部门的,完全共同的事务报表数据,能够经过数据库房生成对对事务具别克君越,数据库的晋级版:数据库房,俄罗斯地图有辅导性的数据,一起,为领导决议计划供给全面的数据支撑。

通活蛎肽过数据库房建造的开展阶段,咱们能够看出,数据库房的建造和数据集市的建造的重要差异就在于数据模型的支撑。因而,数据模型老鼠货是什么意思的建造,关于咱们数据库房的建造,有着决定性的意义。

三、数据库与数据库房的差异

了解数据库与数据库房的差异之前,首要把握三个概念。数据库软件、数据库、数据库房。

1 数据库软件

是一种软件,能够看得见,能够操作。用来完结数据库逻辑功用。归于物理层。

2 数据库

是一种逻辑概念,用来寄存数据的库房。经过数据库软件来完结。数据库由许多表组成,表是二维的,一张表里能够有许多字段。字段一字排开,对应的数据就一行一行写入表中。数据库的表,在于能够用二维体现多维联系。现在市面上盛行的数据库都是二维数据库。如:Oracle、DB2、MySQL、Sybase、MS SQL Server等。

3 数据库房

是数据库概念的晋级。从逻辑上了解,数据库和数据库房没有差异,都是经过数据库软件完结的寄存数据的当地,只不过从数据量来说,数据库房要比温彻斯特1887数据库更巨大得多。数据库房首要用于数据发掘和数据剖析,辅佐领导做决议计划。

在IT的架构体系中,数据库是有必要存在的。有必要要有当地寄存数据。比方现在的网购,淘宝,京东等等。物品的存货数量,货品的价格,用户的账户余额之类的。这些数据都是寄存在后台数据库中。或许最简略了解,咱们现在微博,QQ等账户的用户名和暗码。在后台数据库必定有一张user表,字百华月咏段最少有两个,即用户名和暗码,然后咱们的数据就一行一行的存在表上面。当咱们登录的时分,咱们填写了用户名和暗码,这些数据就会被传回到后台去,去跟表上面的数据匹配,匹配成功了,你就能登录了。匹配不成功就会报错说暗码过错或许没有此用户名等。这个便是数据库,数据库在出产环境便是用来干活的。但凡跟事务运用挂钩的,咱们都运用数据库。

数据库房则是BI下的其间一种技能。因为数据库是跟事务运用挂钩的,所以一个数据库不或许装下一家公司的一切数据。数据库的表规划往往是针对某一个运用进行规划的。比方方才那个登录的功用,这张user表上就只要这两个字段,没有其他字段了。可是这张表契合运用,没有问题。可是这张表不契合剖析。比方我想知道在哪个时刻段,用户登录的量最多?哪个用户一年购物最多?诸如此类的目标。那就要从头规划数据库的表结构了。关于数据剖析和数据发掘,咱们引进数据库房概念。数据库房的表结构是依照剖析需求,剖析维度,剖析目标进行规划的。

数据库与数据库房的差异实践讲的是OLTP与OLAP的差异。

操作型处理,叫联机事务处理OLTP(On-Line Transaction Processing),也能够称面向买卖的处理体系,它是针对详细事务在数据库联机的日常操作,一般对少量记载进行查询、修正。用户较为关怀操作的呼应时刻、数据的安全性、完好性和并发支撑的用户数等问题。传统的数据库体系作为数据办理的首要手法,首要用于操作型处理。

剖析型处理,叫联机剖析处理OLAP(On-Line Analytical Processing)一般针对某些主题的前史数据进行剖析,支撑办理决议计划。

操作型处理与剖析型处理的比较


四、数据库房架构分层

1 数据库房架构

数据库房规范上能够分为四层:ODS(暂时存储层)、PDW(数据库房层)、DM(数据集市层)、APP(运用层)。

1)ODS层:

为暂时存储层,是接口数据的暂时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源体系的数据是同构的,首要意图是简化后续数据加工处理的作业。从数据粒度上来说ODS层的你都怎么回蚁窝数据粒度是最细的。ODS层的表一般包括两类,一个用于存储当时需求加载的数据,一个用于存储处理完后的前史数据。前史数据一般保存3-6个月后需求铲除,以节约空间。但不同的项目要差异对待,假如源体系的数据量不大,能够保存更长的时刻,乃至全量保存;

2)PDW层:

为数据库房层,PDW层的数据应该是共同的、精确的、洁净的数据,即对源体系数据进行了清别克君越,数据库的晋级版:数据库房,俄罗斯地图洗(去除了杂质)后的数据。这一层的数据一般是遵从数据库第三范式的,其数据粒度一般和OD别克君越,数据库的晋级版:数据库房,俄罗斯地图S的粒度相同。在PDW层会保存BI体系中一切的前史数据,例如保存10年的数据。

3)DM层:

为数据集市层,这层数据是面向主题来安排数据的,一般是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,现已不存在明细数据了。从数据的时刻跨度来说,一般是PDW层的一部分,首要的意图是为了满意用户剖析的需求,而从剖析的视点来说,用户一般只需求碌卡是什么意思剖析近几年(如近三年的数据)的即可。从数据的广度来说,依然掩盖了一切事务数据。

4)APP层:

为运用层,这层数据是完全为别克君越,数据库的晋级版:数据库房,俄罗斯地图了满意详细的剖析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不必定会掩盖一切事务数据,而是DM层数据的别克君越,数据库的晋级版:数据库房,俄罗斯地图一个真子集,从某种意义上来说是DM层数据的一个重复。从极点状况来说,能够为每一张报表在APP层构建一个模型来支撑,到达以空间换时刻的意图数据库房的规范分层仅仅一个主张性质的规范,实践施行时需求依据实践状况确认数据库房的分层,不同类型的数据也或许采纳不同的分层办法。

2 为什么要对数据库房分层?

1)用空间换时刻,经过许多的预处理来提高运用体系的用户体会(功率),因而数据库房会存在许多冗余的数据。

2)假如不分层的话,假如源事务体系的事务规矩发作改动将会影响整个数据清洗进程,作业量巨大。

3)经过数据分层办理能够简化数据清洗的进程,因为把本来一步的作业分到了多个进程去完结,适当于把一个杂乱的作业拆成了多个简略的作业,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简略和简略理差人妈妈解,这样咱们比较简略确保每一个进程的正确性,当数据发作过错的时分,往往咱们只需求部分调整某个进程即可。

五、元数据介绍

当需求了解某地企业及其供给的服务时,电话黄页的重要性就体现出来了。元数据(Metadata)类似于这样的电话黄页。

1 元数据的界说

数据库房的元数据是关于数据库房中数据的数据。它的效果类似于数据库办理体系的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据库房中,元数据描绘了数据库房内数据的结构和树立办法的数据。

元数据是数据库房办理体系的重要组重回明朝当皇帝成部分,元数据办理器是企业级数据库房中的要害组件,贯穿数据库房构建的整个进程,直接影响着数据库房的构建、运用和保护。

(1)构建数据库房的首要进程之一是ETL。这时元数据将发挥重要的效果,它界说了源数据体系到数据库房的映射、数据转化的规矩、数据库房的逻辑结构、数据更新的规矩、数据导入前史记载以及装载周期等相关内容。新八唧数据抽取和转化的专家以及数据库房办理员正是经过元数据高效地构建数据库房。

(2)别克君越,数据库的晋级版:数据库房,俄罗斯地图用户在运用数据库房时,经过元数据拜访数据,清晰数据项的意义以及定制报表。

(3)数据库房的规划及其杂乱性离不开正确的元数据办理,包括增加或移除外部数据源,改动数据清洗办法,操控犯错的查询以及安排备份等。

元数据可分为技能元数据和事务元数据。技能元数据为开发和办理数据库房的IT人员运用,它描绘了与数罗男堂据库房开发、办理和保护相关的数据,包括数据源信息、数据转化描绘、数据库房模型、数据清洗与更新规矩、数据映射和拜访权限等。而事务元数据为办理层和事务剖析人员服务,从事务视点描绘数据,包括商务术语、数卿本佳人何小军据库房中有什么数据、数据的方位和数据的可用性等,协助事务人员更好地了解数据库房中哪些数据是可用的以及怎么运用。

由上可见,元数据不只界说了数据库房中数据的方法、来历、抽取和转化规矩等,并且是整个数据库房体系运转的根底,元数据把数据库房体系中各个松懈的组件联络起来,组成了一个有机的全体,如图所示

2 元数据的存储办法

元数据有两种常见存储办法:一种是以数据集为根底,每一个数据集有对应的元数据文件,每一个元数据文件包括对应数据集的元数据内容;另一种存储办法是以数据库为根底,即元数据库。其间元数据文件由若干项组成,每一项表明元数据的一个要素,每条记载为数据集的元数据内容。上述存储办法各有优缺点,榜首种存储办法的长处是调用数据时相应的元数据也作为一个独立的文件被传输,相对数据库有较强的独立性,在对元数据进行检索时能够运用数据库的功用完结,也能够把元数据文件调到其他数据库体系中操作;缺乏是假如每一数据集都对应一个元数据文档,在规划巨大的数据库中则会有许多的元数据文件,办理不便利。第二种存储办法下,元数据库中只要一个元数据文件,办理比较便利,增加或删去数据集,只要在江苏启润科技有限公司该文件中增加或删去相应的记载项即可。在获取某数据集的元数据时,因为实践得到的仅仅联系表格数据的一条记载,所以要求用户体系能够承受这种特定方法的数据。因而引荐运用元数据库的办法。

元数据库用于存储元数据,因而元数据库最好选用干流的联系数据库办理体系。元数据库还包括用于操作和查询元数据的机制。树立元数据库的首要长处是供给共同的数据结构和事务规矩,易于把企业内部的多个数据集市有机地集成起来。现在,一些企业倾向树立多个数据集市,而不是一个会集的数据库房,这时能够考虑在树立数据库房(或数据集市)之前,先树立一个用于描绘数据、服务运用集成的元数据库,做好数据库房施行的初期支撑作业,对后续开发和保护有很大的协助。元数据库确保了数据库房数据的共同性和精确性,为企业进行数据质量办理供给根底。

3 元数据的效果

在数据库房中,元数据的首要效果如下。

(1)描绘哪些别克君越,数据库的晋级版:数据库房,俄罗斯地图数据在数据库房中,协助决议计划剖析者对数据库房的内容定位。

(2)界说数据进入数据库房的办法,作为数据汇总、映射和清洗的攻略。

(3)记载事务事情发作而随之进行的数据抽取作业时刻安排。

(4)记载并检测体系数据共同性的要求和执行状况。

(5)评价数据质量。

六、星型模型和雪花模型

在多维剖析的商业智能处理方案中,依据现实表和维度表的联系,又可将常见的模型分为星型模型和雪花型模型。在规划逻辑型数据的模型的时分,就应考虑数据是依照星型模型仍是雪花型模型进行安排。

1 星型模型

当一切维表都直接衔接到“ 现实表”上时,整个图解就像星星相同,故将该模型称为星型模型。

星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与现实表相衔接,不存在突变维度,所以数据有必定的冗余,如在地域维度表中,存在国家A 省B的城市C以及国家A省B的城市D顾依依陆琛两条记载,那么国家A和省B的信息别离存储了两次,即存在冗余。

2 雪花模型

当有一个或多个维表没有直接衔接到现实表上,而是经过其他维表衔接到现实表上时,其图解就像多个雪花衔接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表或许被扩展为小的现实表,构成一些部分的" 层次" 区域,这些被分化的表都衔接到主维度表而不是现实表。如图所示,将地域维表又分化为国家,省份,城市等维表。它的长处是:经过最大极限地削减量据存储量以及联合较小的维表来改进查询功能。雪花型结构去除了数据冗余。

星型模型因为数据的冗余所以许多计算查询不需求做外部的衔接,因而一般情北帝伤后况下功率比雪花型模型要高。星型结构不必考虑许多正规化的要素,规划与完结都比较简略。雪花型模型因为去除了冗余,有些计算就需求经过表的联接才干发生,所以功率不必定有星型模型高。正规化也是一种比较杂乱的进程,相应的数据库结构规划、数据的 ETL、以及后期的保护都要杂乱一些。因而在冗余能够承受的前提下,实践运用中星型模型运用更多,也更有功率。

3 星型模型和雪花模型比照

星形模型和雪花模型是数据库房中常用到的两种办法,而它们之间的比照要从四个视点来进行评论。

1)数据优化

雪花模型运用的是规范化数据,也便是说数据在数据库内部是安排好的,以便消除冗余,因而它能够有效地削减量据量。经过引火影之逍遥鸣人用完好性,其事务层级和维度都将存储在数据模型之中。

雪花模型

比较较而言,星形模型运用的是反规范化数据。在星形模型中,维度直接指的是现实表,事务层级不会经过维度之间的参照完好性来布置。

星形模型

 2)事务模型

主键是一个独自的唯一键(数据特点),为特别数据所挑选。在上面的比方中,Advertiser_ID就将是一个主键。外键(参阅特点)仅仅是一个表中的诱母全攻略字段,用来匹配其他维度表中的主键。在咱们所引证的比方中,Advertiser_ID将是Account_dimension的一个外键。

在雪花模型赫章可乐火把节中,数据模型的事务层级是由一个不同维度表主键-外键的联系来代表的。而在星形模型中,一切必要的维度表在现实表中都只具有外键。

 3)功能

第三个差异在于功能的不同。雪花模型在维度表、现实表之间的衔接许多,因而功能方面会比较低。举个比方,假如你想要知道Advertiser 的详细信息,雪花模型就会恳求许多信息,比方Advertiser Name、ID以及那些广告主和客户表的地址需陈宝柱要衔接起来,然后再与现实表衔接。

而星形模型的衔接就少的多,在这个模型中,假如你需求上述信息,你只要将Advertiser的维度表和现实表衔接即可。

4)ETL

雪花模型加载数据集市,因而ETL操作在规划上愈加杂乱,并且因为隶属模型的约束,不能并行化。

星形模型加载维度表,不需求再维度之间增加隶属模型,因而ETL就相对简略,并且能够完结高度的并行化。

总结

雪花模型使得维度剖析愈加简略,比方“针对特定的广告主,有哪些客户或许公司是在线的?”星形模型用来做目标剖析更适合,比方“给定的一个客户他们的收入是多少?”

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

星译社小组,硅谷房价飚涨!苹果“捐”25亿美元留人 却被批判……,红烧带鱼的做法

  • 语文三年级下册,北美可再生能源项目交易量超7吉瓦,尿液有泡沫