当前位置:   article > 正文

Hive笔记_hive对于主题、集市是如何理解的

hive对于主题、集市是如何理解的

数仓概念

1.数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储分析报告的数据系统。
2.数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。

数仓专注分析

1.数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统。
2.同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。
3.这也是为什么叫“仓库”,而不叫“工厂”的原因(我们不生产数据,我们只是数据的搬运工)。

数仓主要特征

1. 面向主题(Subject-Oriented)

主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
传统OLTP系统对数据的划分并不适用于决策分析。而基于主题组织的数据则不同,它们被划分为各自独立的领域,每个领域有各自的逻辑内涵但互不交叉,在抽象层次上对数据进行完整、一致和准确的描述。

2.集成性(Integrated)

主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构。 因此在数据进入数据仓库之前,必然要经过统一与综合,对数据进行抽取、清理、转换和汇总,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:
1.要统一源数据中所有矛盾之处;
如字段的同名异义、异名同义、单位不统一、字长不一致等等。
2.进行数据综合和计算。
数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

3.非易失性(Non-Volatile,非易变性(稳定性))

数据仓库是分析数据的平台,而不是创造数据的平台。我们是通过数仓去分析数据中的规律,而不是去创造修改其中的规律。因此数据进入数据仓库后,它便稳定且不会改变。
数据仓库的数据反映的是一段相当长的时间内历史数据的内容,数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。 数据仓库中一般有大量的查询操作,但修改和删除操作很少。

4.时变性(Time-Variant)

数据仓库包含各种粒度的历史数据,数据可能与某个特定日期、星期、月份、季度或者年份有关。
当业务变化后会失去时效性。因此数据仓库的数据需要随着时间更新,以适应决策的需要。
从这个角度讲,数据仓库建设是一个项目,更是一个过程 。

数据仓库、数据集市

数据仓库(Data Warehouse)是面向整个集团组织的数据,数据集市(Data Market)是面向单个部门使用的。
可以认为数据集市是数据仓库的子集,也有人把数据集市叫做小型数据仓库。数据集市通常只涉及一个主题领域,例如市场营销或者销售。因为他们较小且更具体,所以他们通常更易于管理和维护,并且具有更灵活的结构。

数仓分层

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分层好处

在这里插入图片描述
在这里插入图片描述

ETL、ELT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Hive

什么是Hive

1.Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。
2.Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。
3.Hive由Facebook实现并开源。

为什么使用Hive

1.使用Hadoop MapReduce直接处理数据所面临的问题
人员学习成本太高 需要掌握java语言
MapReduce实现复杂查询逻辑开发难度太大
2.使用Hive处理数据的好处
操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
避免直接写MapReduce,减少开发人员的学习成本
支持自定义函数,功能扩展很方便
背靠Hadoop,擅长存储分析海量数据集

Hive和Hadoop关系

1.从功能来说,数据仓库软件,至少需要具备下述两种能力:
存储数据的能力、分析数据的能力
2.Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述两种能力,而是借助Hadoop。Hive利用HDFS存储数据,利用MapReduce查询分析数据。
3.这样突然发现Hive没啥用,不过是套壳Hadoop罢了。其实不然,Hive的最大的魅力在于用户专注于编写HQL,Hive帮您转换成为MapReduce程序完成对数据的分析。

Hive元数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/706473
推荐阅读
相关标签
  

闽ICP备14008679号