搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
空白诗007
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
接口全周期的生产力利器Apifox_apifox定时执行
2
eureka客户端启动流程_task supervisor rejected the task
3
【扩散模型(四)】IP-Adapter 源码详解2-训练核心(cross-attention)
4
Iterative error correction of long sequencing reads maximizes accuracy and improves contig assembly_iterative baited assembly (iba)
5
解决docker下载不了问题
6
在测试行业找工作2个月,投的简历都石沉大海,我真的很差吗?_找了一份软件测试的工作开始怀疑自己
7
Oracle Database 23c新特性之注解_oracle database 23ai
8
小时分组 时间_这份二建管理时间汇总资料,我不允许你没有!
9
【qt】考试系统项目
10
STM32固件库认识+固件库模板点灯_stm3210x固件
当前位置:
article
> 正文
大数据架构师必读:常见的七种Hadoop和Spark项目案例_大数据hadoop+spark+hive京东销售数据分析项目
作者:空白诗007 | 2024-07-14 13:28:58
赞
踩
大数据hadoop+spark+hive京东销售数据分析项目
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目。
项目一:数据整合
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来,HBase和Phoenix在大数据整合方面将大展拳脚,打开一个新的局面,创建出全新的数据美丽新世界。
销售人员喜欢说“读模式”,但事实上,要取得成功,你必须清楚的了解自己的用例将是什么(Hive模式不会看起来与你在企业数据仓库中所做的不一样)。真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用Tabelu和Excel。许多复杂的公司以“数据科学家”用Zeppelin或IPython笔记本作为前端。
项目二:专业分析
许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域,如在银行领域的流动性风险/蒙特卡罗模拟分析。在过去,这种专业的分析依赖于过时的,专有的软件包,无法扩大数据的规模经常遭受一个有限的功能集(大部分是因为软件厂商不可能像专业机构那样了解的那么多)。
在Hadoop和Spark的世界,看看这些系统大致相同的数据整合系统,但往往有更多的HBase,定制非SQL代码,和更少的数据来源(如果不是唯一的)。他们越来越多地以Spark为基础。
项目三:Hadoop作为一种服务
在“专业分析”项目的任何大型组织(讽刺的是,一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即,疼痛)管理几个不同配置的Hadoop集群,有时从不同的供应商。接下来,他们会说,“也许我们应该整合这些资源池,”而不是大部分时间让大部分节点处于资源闲置状态。它们应该组成云计算,但许多公司经常会因为安全的原因(内部政治和工作保护)不能或不会。这通常意味着很多Docker容器包。
我没有使用它,但最近Bluedata(蓝色数据国际中心)似乎有一个解决方案,这也会吸引小企业缺乏足够的资金来部署Hadoop作为一种服务。
项目四:流分析
很多人会把这个“流”,但流分析是不同的,从设备流。通常,流分析是一个组织在批处理中的实时版本。以反洗钱和欺诈检测:为什么不在交易的基础上,抓住它发生而不是在一个周期结束?同样的库存管理或其他任何。
在某些情况下,这是一种新的类型的交易系统,分析数据位的位,因为你将它并联到一个分析系统中。这些系统证明自己如Spark或Storm与Hbase作为常用的数据存储。请注意,流分析并不能取代所有形式的分析,对某些你从未考虑过的事情而言,你仍然希望分析历史趋势或看过去的数据。
项目五:复杂事件处理
在这里,我们谈论的是亚秒级的实时事件处理。虽然还没有足够快的超低延迟(皮秒或纳秒)的应用,如高端的交易系统,你可以期待毫秒响应时间。例子包括对事物或事件的互联网电信运营商处理的呼叫数据记录的实时评价。有时,你会看到这样的系统使用Spark和HBase——但他们一般落在他们的脸上,必须转换成Storm,这是基于由LMAX交易所开发的干扰模式。
在过去,这样的系统已经基于定制的消息或高性能,从货架上,客户端-服务器消息产品-但今天的数据量太多了。我还没有使用它,但Apex项目看起来很有前途,声称要比Storm快。
项目六:ETL流
有时你想捕捉流数据并把它们存储起来。这些项目通常与1号或2号重合,但增加了各自的范围和特点。(有些人认为他们是4号或5号,但他们实际上是在向磁盘倾倒和分析数据。),这些几乎都是Kafka和Storm项目。Spark也使用,但没有理由,因为你不需要在内存分析。
项目七:更换或增加SAS
SAS是精细,是好的但SAS也很贵,我们不需要为你的数据科学家和分析师买存储你就可以“玩”数据。此外,除SAS可以做或产生漂亮的图形分析外,你还可以做一些不同的事情。这是你的“数据湖”。这里是IPython笔记本(现在)和Zeppelin(以后)。我们用SAS存储结果。
当我每天看到其他不同类型的Hadoop,Spark,或Storm项目,这些都是正常的。如果你使用Hadoop,你可能了解它们。几年前我已经实施了这些项目中的部分案例,使用的是其它技术。
如果你是一个老前辈太害怕“大”或“做”大数据Hadoop,不要担心。事情越变越多,但本质保持不变。你会发现很多相似之处的东西你用来部署和时髦的技术都是围绕Hadooposphere旋转的。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/空白诗007/article/detail/824826?site
推荐阅读
article
window
s下搭建
hadoop
环境缺少
winutils
.
exe
,
hdfs
.
dll
,
hadoop
.d...
在
hadoop
官网找到
hadoop
包https://archive.apache.org/dist/
hadoop
/com...
赞
踩
article
Hadoop
之
winutils
...
Hadoop
之
winutils
Caused by: java.lang.UnsatisfiedLinkError: ...
赞
踩
article
在
windows
构建
hadoop
,生成
winutils
.
exe
和
hadoop
.
dll
...
windows
环境
构建
hadoop
,生成
winutils
.
exe
和
hadoop
.
dll
_
hadoop
.
dll
h...
赞
踩
article
Spark
Streaming
基于
kafka
的
Direct
详解_
sparkstreaming
和ka...
本博文主要包括一下内容: 1,
Spark
Streaming
on Kafka
Direct
工作原理机制 2,
Spark
S...
赞
踩
article
【
Spark
MLlib
】(五)
随机
森林
(
Random
Forest
_
spark
随机
森林
项目...
随机
森林
就是构建多棵决策树投票,在构建多棵树过程中,引入
随机
性,一般体现在两个方面,一是每棵树使用的样本进行
随机
抽样,分...
赞
踩
article
2024年最新【
Hadoop
】(六)详解
HDFS
的
数据流
(
面试
重点,企业级项目实战讲解_hdf...
在《
Hadoop
系列》
的
第一篇博文里,就已经提到了。_
hdfs
读
数据流
程
hdfs
读
数据流
程 ...
赞
踩
article
【
Hadoop
】
(
六)详解
HDFS
的
数据流
(
面试
重点...
在《
Hadoop
系列》
的
第一篇博文里,就已经提到了。【
Hadoop
】
(
六)详解
HDFS
的
数据流
(
面试
重点 ...
赞
踩
article
【
Hadoop
】
HDFS
读写流程和
客户端
命令
使用
_
hdfs
客户端
...
HDFS
(
Hadoop
Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定...
赞
踩
article
大
数据
-计算引擎-
Spark
(一):概述【基于内存
的
大
数据
分析
引擎】【核心模块:
Spark
Core
...
Spark
是一种基于内存
的
快速、通用、可扩展
的
大
数据
分析
计算引擎。在之前
的
学习中,Hadoop
的
MapReduce...
赞
踩
article
大
数据
算法题(
flink
spark
sql
)_
flink
sql
练习题
...
1 求(event userid time)格式下不同event(比如浏览、点击、购买等行为)的pv uv。//最普通的...
赞
踩
article
Hadoop
生态简介,
Hive
、
Spark
、
HBase
等...
Hadoop
生态全景介绍,
Spark
、
Hive
、
HBase
等_hadoop生态hadoop生态 ...
赞
踩
article
ERROR:
org
.
apache
.
hadoop
.
hba
se
.PleaseHoldException...
经排查,发现错误在与之前配置错误时,启动
hba
se
集群会有错误信息残留在zookeeper客户端以及hdfs的
hba
se
...
赞
踩
article
HBase
建表时报错问题之:
ERROR
: org.apache.
hadoop
.
hbase
.Pleas...
在使用
HBase
创建表时,会出现以下报错:
ERROR
: org.apache.
hadoop
.
hbase
.PleaseHo...
赞
踩
article
基于
Spark
的
电商
用户
行为
分析
系统_基于
spark
的
电商
用户
行为
实时
分析
可视化系统...
基于
Spark
的
电商
用户
行为
数据
分析
_基于
spark
的
电商
用户
行为
实时
分析
可视化系统基于
spark
的
电商
用户
行为
实时
分析
...
赞
踩
article
Spark
--
模拟
生成
电商
销售
数据_怎么
模拟
电商
平台商品
销售
量
...
1.2.将
Spark
的包下载下来,并将它解压到虚拟机上,放在/usr/local/路径下3.修改
Spark
配置文件得到一...
赞
踩
article
【
Spark
】
Spark
电商
数据分析
_
spark
电商
网站
数据分析
和处理...
Spark
电商
数据分析
数据展示与分析需求:Top10 热门品类需求分析实现方法一实现方法二实现方法三实现方法四需求:To...
赞
踩
article
【全网详解】从0到1
搭建
双十一
实时
交易
数据
展示
平台——
Spark
+
Kafka
构建
实时
分析
系统
_ifr...
万事具备之巧借东风预备知识Linux
系统
命令使用、了解如何安装Python库、安装kafka。熟悉Linux基本操作、P...
赞
踩
article
Spark
RDD
使用
教程_头歌实验
spark
rdd
操作
数据库...
Transformation(转换):表示是针对
RDD
中数据的转换
操作
,主要会针对已有的
RDD
创建一个新的
RDD
:常见的...
赞
踩
article
【
Spark
SQL
】
4
、
Spark
SQL
的
安装及简单
使用
_
spark
sql
安装...
Spark
MapReduce
的
局限性:代码繁琐只能够支持map和reduce方法执行效率低下不适合迭代多次,交互式、流式...
赞
踩
article
m>Spark
m> 部署与
m>应用程序
m>交互简单使用说明_
m
&
m
m>巧克力
m>豆
m>数据
m>集...
在本章中,我们介绍了开始使用Apache
m>Spark
m>所需的三个简单步骤:下载框架,熟悉Scala或Py
m>Spark
m>交互sh...
赞
踩
相关标签
大数据
windows
hadoop
bug
hdfs
big data
spark-ml
随机森林
算法
面试
学习
HDFS读取流程
har
HDFS客户端
HDFS shell
安全模式
spark