赞
踩
类型 | 数据库 | 数据仓库 |
概述 | 数据库面向事业设计,属于OLTP(在线事务处理)系统,主要操作是随机读写;在设计时尽量避免冗余,常采用符合范式规则来设计; | 数据库面向主题设计,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用符合范式规则来设计; |
面向 | 事务 | 分析 |
数据类型 | 细节、业务 | |
数据特点 | 当前的、最新的 | 综合、清洗过的数据 |
目的 | 日常操作 | 历史的、跨时间维护 |
设计模型 | 基于ER模型,面向应用 | 长期信息需求、决策支持 |
操作 | 读/写 | 星形/雪花模型,面向主题 |
数据模型 | GB到TB | >=TB |
传统数据仓库 | 大数据数据仓库 | |
---|---|---|
概述 | 由关系型数据组成MPP(大规模并行处理)集群 | 利用大数据天然的扩展性,完成海量数据的存放 将SQL转化为大数据计算引擎任务,完成数据分析 |
问题 | 扩展性有限、热点问题 | SQL支持率、事务支持 |
传统数据仓库
大数据数据仓库
2.2.1.1数据抽取(Extraction)
2.2.1.2抽取方式
数据转化要经历数据清洗和转化两个过程:
结构化数据再转化过程中的逻辑较为简单,非/半结构化数据的转化
数据加载(Loading)
将最后处理完的数据导入对应的目标源里
结构化数据ETL工具
非/半结构化数据ETL工具
在离线数仓中,业务数据定期通过ETL流程到ODS中,导入方式有全量、增量两种:
OLAP系统分类
典型的数据仓库建模方法有ER模型、维度模型、Data Value、Anchor
ER模型(成熟)
维度建模(互联网)
Data Value
Anchor
星型模型
雪花模型
星座模型
什么是宽表模型
常见的MOLAP产品
对维度方向的互换,类似与交换坐标轴上卷(Roll-up)
事实表
维度表
事务事实表
周期快照事实表
累计快照事实表
实现方式一
实现方式二
实现方案三
全量同步
增量同步
操作系统依旧组件版本
使用3台虚拟机进行搭建
Hadoop | Hive&Tez | MySQL | Sqoop | Azkaban | Presto | |
node01 | ✔ | ✔ | ✔ | |||
node02 | ✔ | ✔ | ✔ | ✔ | ||
node03 | ✔ | ✔ | ✔ | ✔ | ✔ |
Downloads – Oracle VM VirtualBoxhttps://www.virtualbox.org/wiki/Downloads
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。