赞
踩
数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定
数据仓库中的数据来源于数据源,将数据源中数据通过网络进行抽取,并经加工、转换、综合后形成数据库中的数据,这就是数据仓库的数据抽取
时间戳
DELTA文件
建立映像文件
日志文件
关于数据的数据,描述了数据的结构、内容、编码、索引等内容
通过元数据可以将数据仓库和复杂的数据源系统的变化隔离,是数据仓库开发和维护的一个关键因素,也是保证数据抽取质量的依据。
数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系.数据集市的数据来自于仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程
(瞄一眼就好。。)
比较项目 | OLAP | OLTP |
---|---|---|
应用基础 | 数据仓库 | DBMS |
用户 | 决策者(高级管理人员) | 一般操作员(管理人员) |
目的 | 为决策和管理提供支持 | 为日常工作服务 |
数据特征 | 导出数据 | 原始数据 |
数据细节 | 综合性数据,细节程度低 | 细节程度高 |
时间特征 | 历史数据,横跨一个时段 | 当前数据 |
更新方法 | 周期性刷新 | 可实时更新 |
数据量需求 | 一次处理需大量数据 | 一次处理需少量数据 |
大于等于四位,称为”数据超立方体“
多维分析是指对以多维形式组织起来的数据采取***切片、切块、旋转、钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多个侧面地观察数据*,从而深入地了解被包含在数据中的信息、内涵。
明确主题
技术准备
一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法
退化维度
规范化 | 非规范化 |
---|---|
雪花模型 | 星型模型 |
复杂的表关系 | 简单的表关系 |
节省存储空间 | 记录之间存在数据冗余 |
连接的复杂,高开销 | 连接简单,低开销 |
低维度浏览能力 | 高维度浏览能力 |
不支持物理加速技术 | 支持物理加速技术 |
一种可以按增量开发方式分布建造企业数据仓库的方法
特征 | 事务粒度 | 周期快照粒度 | 累积快照粒度 |
---|---|---|---|
代表的时间段 | 时间 | 规律性可预见间隔 | 不确定时间跨度,一般是短期 |
粒度 | 每个事务一行 | 每段一行 | 每个生命期一行 |
事实表加载 | 插入 | 插入 | 插入与更新 |
事实行更新 | 不重新存取 | 不重新存取 | 行为发生任何时候都要重新存取 |
日期维度 | 事务发生日期 | 时间段终止日期 | 标准环节的多个日期 |
事实 | 事务活动 | 预定时间间隔的性能 | 给定生命期的性能 |
在数据仓库的维度模型中,部分维度属性是会随时间而发生变化的,若只是将这些变化的维度属性值作简单的修正,即在维度表中只 保留该维度属性的当前值,这会直接影响到对事实表中该维度属性所对应的事实数据元组的访问,特别是无法根据维度属性值的变化 情况来进行分析处理
数据挖掘就是对数据库(数据仓库)中**蕴含的、未知的、非平凡的、有潜在应用价值的模式(规则)**的提取
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。