赞
踩
是数据预处理的前提
主要任务:检查原始数据中是否存在脏数据
脏数据:不符合要求,以及不能直接进行相应分析的数据。包括:缺失值,异常值,不一致的值,重复数据,含有特殊符号的数据。
1、缺失值处理方式:删除存在缺失值的记录; 对可能值进行插补; 不处理。
2、异常值(离群点)处理方式:
简单统计量分析(判断变量取值是否超出范围);
如果数据不服从正态分布,可以用远离平均值的多少倍标准差来描述。
箱型图分析:以四分位数和四分为距为基础判断异常值
3、一致性分析
不一致数据的产生主要发生在数据集成的过程中,由于数据来自于不同的数据源等导致。
1、分布分析:
定量数据:绘制频率分布直方图
定性数据:根据变量的分类来分组,绘制饼图和条形图
2、对比分析:绝对数比较、相对数比较
3、统计量分析:分析集中趋势、离中趋势
集中趋势度量:均值、中位数、众数
离中趋势度量:极差、标准差、变异系数、四分位数间距
4、周期性分析
5、贡献度分析
6、相关性分析:绘制散点图、计算相关系数
删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据、处理缺失值、异常值等。
三种处理方法:删除记录、数据插补、不处理
插补方法:拉格朗日插值法(Scipy库中提供了函数 ):对于平面上已知的 n 个点,可以找到一个 n-1 次多项式,使此多项式曲线通过这 n 个点(无两点在一条直线上)。将缺失的函数值对应的点 x 带入多项式求得近似值。
- data[u'a']=None #置为空值
- data=data[data.notnull()] #剔除空值
-
- if(data[i].isnull())[j] #判断是否为空值
API REFERENCE: https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.lagrange.html#scipy.interpolate.lagrange
删除记录:若原始数据量大,缺失值所占比例较小,对结果影响不大,则可以对其进行丢弃处理。
使用Hive,Scipy 和 data.describe( )处理空值的方法:https://blog.csdn.net/Carolinedy/article/details/82251902
处理方法:删除记录、平均值修正、不处理
将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。
冗余属性识别:部分可以通过相关分析检测
单位不统一、同名异义、异名同义这几中情况的集成。
对数据进行规范化处理、以转换成适用于挖掘任务及算法的形式。
包括平方、开方、取对数、差分运算等。常用来将不具有正态分布的数据变换成具有正态分布的数据。
在时间序列分析中,差分运算有时可以将非平稳序列转换成平稳序列。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。