当前位置:   article > 正文

python数据分析之航空公司客户价值分析

python数据分析之航空公司客户价值分析

一.引言

本篇文章是根据航空公司提供的乘客个人信息,通过建立合理的客户价值评估模型,对客户进行分群,比较分析不同客户群的特点和价值,来指定相应的营销策略,从而减少客户流失,挖掘出潜在客户,实现盈利。在这里是用K-
means聚类方法来对乘客进行分群的。

源数据部分如下图所示:

各属性解释如下:

![](https://img-
blog.csdn.net/2018051615505298?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjAzNjY0MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

二.数据探索

通过调用describe()函数对数据进行一个大致的了解,主要是查看缺失值和异常值。通过观察发现,存在票价为零,折扣率为0,总飞行数为0的情况。通过简单处理,我输出了一个包含个属性空值个数,最大值,最小值数据的表格。部分如下:

对应代码:

    import pandas as pd
    datafile='D:/航空公司客户价值分析/data/air_data2.csv'
    resultfile='D:/航空公司客户价值分析/explore.xls'
    data=pd.read_csv(datafile)
    explore=data.describe().T#对数据的统计性描述,T是我进行了转置
    explore['null']=len(data)-explore['count']
    df=explore[['max','min','null']]
    df.to_excel(resultfile)
[/code]

三.数据预处理

1.数据清洗

通过上一步的数据探索分析发现数据中存在缺失值,而这一部分的比例相对较小,故直接删掉。具体处理如下:

  * 丢弃票价为空的记录 
  * 丢弃票价为0,平均折扣率不为0且总飞行公里数大于零的记录。 

2.属性规约与数据变换

原始数据中的属性太多。而评估航空公司客户价值通常根据LRFMC模型,与其相关的只有6个属性即,FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。  

简单介绍下LRFMC模型,即客户关系长度L、消费时间间隔R、消费频率F、飞行里程M和折扣系数的平均值C。这五个指标为评价客户价值的重要因素,而上面6个属性与这5个指标的关系如下:  

  * L=LOAD_TIME-FF
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/780036
推荐阅读
相关标签
  

闽ICP备14008679号