赞
踩
随着大数据时代的到来,企业挖掘出隐藏巨大的数据价值给带来了更多的市场机会。大数据存储,处理和处理的研究已是企业未来发展的趋势,因此,将开展基于Hadoop + Hive框架进行电子商务数据分析,搭建一个大数据集群平台,用于通过电商案例的存储,处理,分析和可视化展示的实验迎向困难该挑战
DataWarehouse是一套策略,可为公司提供决策和数据支持。
根据实际生产情况,数据仓库通常分为三层。
数据引入层:将采集到的数据不做处理导入到数据仓库,数据的类型结构与源数据一致,使用压缩分区减少磁盘的空间,是数据备份层
数据公共层(CDM,CommonDataModel):包括DIM维度表,DWD和DWS。对数据处理和集成、维度建模,构建多个维度的事实宽表,并汇总粒度指标,统计报表,指标分析。
业务数据:它通常由事务性流程处理创建,因此通常存储在关系数据库中,例如mysql和oracle业务数据源:用户基本信息,产品分类信息,产品信息,商店信息,订单数据,订单付款信息,事件信息。物流信息等
埋点日志:相对业务数据用于数据分析和挖掘需求,通常以日志格式存储。在分布式集群存储收集用户的行为日志
数据转换:创建DataFrame文件读取结构化的csv文件步骤:将csv文件加载到RDD并转换为DataFrame。主要进行数据分析的数据资源。
Superset是企业级BI分析工具。可对接多种数据源和简单操作展示图标,自定义仪表盘实现可视化报表,且易于维护和易于二次开发。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。