赞
踩
一.引言
本篇文章是根据航空公司提供的乘客个人信息,通过建立合理的客户价值评估模型,对客户进行分群,比较分析不同客户群的特点和价值,来指定相应的营销策略,从而减少客户流失,挖掘出潜在客户,实现盈利。在这里是用K-
means聚类方法来对乘客进行分群的。
源数据部分如下图所示:
各属性解释如下:

二.数据探索
通过调用describe()函数对数据进行一个大致的了解,主要是查看缺失值和异常值。通过观察发现,存在票价为零,折扣率为0,总飞行数为0的情况。通过简单处理,我输出了一个包含个属性空值个数,最大值,最小值数据的表格。部分如下:
对应代码:
import pandas as pd datafile='D:/航空公司客户价值分析/data/air_data2.csv' resultfile='D:/航空公司客户价值分析/explore.xls' data=pd.read_csv(datafile) explore=data.describe().T#对数据的统计性描述,T是我进行了转置 explore['null']=len(data)-explore['count'] df=explore[['max','min','null']] df.to_excel(resultfile) [/code] 三.数据预处理 1.数据清洗 通过上一步的数据探索分析发现数据中存在缺失值,而这一部分的比例相对较小,故直接删掉。具体处理如下: * 丢弃票价为空的记录 * 丢弃票价为0,平均折扣率不为0且总飞行公里数大于零的记录。 2.属性规约与数据变换 原始数据中的属性太多。而评估航空公司客户价值通常根据LRFMC模型,与其相关的只有6个属性即,FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。 简单介绍下LRFMC模型,即客户关系长度L、消费时间间隔R、消费频率F、飞行里程M和折扣系数的平均值C。这五个指标为评价客户价值的重要因素,而上面6个属性与这5个指标的关系如下: * L=LOAD_TIME-FF
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。