Spark SQL实现企业数据仓库构建(Python)_spark 数据仓库

作者：爱喝兽奶帝天荒 | 2024-06-22 20:00:03

踩

spark 数据仓库

导入必要的库

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
1
2

创建SparkSession

conf = SparkConf().setAppName("Enterprise Data Warehouse")
sc = SparkContext(conf=conf)
spark = SparkSession(sc)
1
2
3

读取数据

# 读取销售订单数据
sales_orders = spark.read.format("csv").option("header", "true").load("sales_orders.csv")
# 读取销售订单详情数据
sales_order_details = spark.read.format("csv").option("header", "true").load("sales_order_details.csv")
# 读取产品信息数据
products = spark.read.format("csv").option("header", "true").load("products.csv")
# 读取客户信息数据
customers = spark.read.format("csv").option("header", "true").load("customers.csv")
1
2
3
4
5
6
7
8

数据清洗和预处理

# 将销售订单数据进行清洗和预处理
sales_orders = sales_orders.dropDuplicates() # 去重
sales_orders = sales_orders.dropna() # 去除缺失值
# 将销售订单详情数据进行清洗和预处理
sales_order_details = sales_order_details.dropDuplicates() # 去重
sales_order_details = sales_order_details.dropna() # 去除缺失值
# 将产品信息数据进行清洗和预处理
products = products.dropDuplicates() # 去重
products = products.dropna() # 去除缺失值
# 将客户信息数据进行清洗和预处理
customers = customers.dropDuplicates() # 去重
customers = customers.dropna() # 去除缺失值
1
2
3
4
5
6
7
8
9
10
11
12

数据合并

# 合并销售订单数据和销售订单详情数据
order_details = sales_orders.join(sales_order_details, on="order_id")
# 合并订单详情数据和产品信息数据
products_info = order_details.join(products, on="product_id")
# 合并产品信息数据和客户信息数据
customers_info = products_info.join(customers, on="customer_id")
1
2
3
4
5
6

数据聚合和分析

# 使用Spark SQL进行数据聚合和分析
customers_info.createOrReplaceTempView("customers_info")
result = spark.sql("""
    SELECT 
        customer_id, 
        customer_name, 
        SUM(total_amount) AS total_sales_amount, 
        COUNT(DISTINCT order_id) AS total_orders, 
        COUNT(DISTINCT product_id) AS total_products
    FROM customers_info
    GROUP BY customer_id, customer_name
    ORDER BY total_sales_amount DESC
""")
# 显示结果
result.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

我们使用了Spark SQL实现企业数据仓库构建，具体实现过程如下：

首先，读取需要构建数据仓库的数据，如销售订单数据、销售订单详情数据、产品信息数据和客户信息数据等。
接着，对读取的数据进行清洗和预处理，如去重、去除缺失值等。
然后，使用join操作将不同的数据表进行合并，得到包含多个表的数据集。
最后，使用Spark SQL进行数据聚合和分析，得到需要的结果，如对客户的销售额、订单数、产品数等进行统计分析。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/747490