当前位置:   article > 正文

22.数据预处理之异常值处理_等宽分箱 异常值怎么处理

等宽分箱 异常值怎么处理

 

  • 指那些偏离正常范围的值,不是错误值
  • 异常值出现频率较低,但又会对实际项目分析造成偏差
  • 异常值一般用过箱线图法(分位差法)或者分布图(标注差法)来判断
  • 异常值往往采取盖帽法或者数据离散化

 

  1. #正态分部法
  2. #对价格做异常值处理
  3. x_bar=df['Price'].mean()#均值
  4. x_std=df['Price'].std()#标准差
  5. #返回一个值false或True
  6. any(df["Price"]>x_bar+2.5*x_std)
  7. any(df["Price"]<x_bar-2.5*x_std)
  8. #统计量
  9. df['Price'].describe()
  10. #箱线图法
  11. #1/4分位数
  12. Q1=df["Price"].quantile(q=0.25)
  13. #3/4分位数
  14. Q3=df["Price"].quantile(q=0.75)
  15. #分位差
  16. IQR=Q3-Q1
  17. #判断数据是否超过上限
  18. any(df["Price"]>Q3+1.5*IQR)
  19. #判断数是否超过下线
  20. any(df["Price"]<Q1-1.5*IQR)
  21. import matplotlib.pyplot as plt
  22. #确保图像可以在jupty notebook中显示出来
  23. %matplotlib inline
  24. #箱线图显示异常值
  25. df["Price"].plot(kind='box')
  26. #直方图显示异常值
  27. plt.style.use('seaborn')
  28. #par1:直方图种类;par2:柱状图个数;par3:概率密度形式
  29. df.Price.plot(kind='hist',bins=30,density=True)
  30. df.Price.plot(kind='kde')
  31. plt.show()
  32. P99=df['Price'].quantile(q=0.99)
  33. P1 =df['Price'].quantile(q=0.01)
  34. #复制一个新变量
  35. df['Price_new']=df['Price']
  36. df.loc[df['Price']>P99,'Price_new']=P99
  37. df.loc[df['Price']<P1,'Price_new']=P1
  38. df[['Price','Price_new']].describe()
  39. #显示箱线图,异常值就木有了,使用盖帽法
  40. df["Price_new"].plot(kind='box')

23.数据预处理之数据离散化处理

  • 数据离散化就是分箱
  • 一般常用分箱方法是等频分箱或者等宽分箱
  • 一般使用pd.cut或者pd.qcut函数
  1. pandas.cut(x,bins,right=True,labels)
  2. x:数据
  3. bins:离散化的数据,或者切分的区间
  4. labels:离散化后各个类别的标签
  5. right:是否包含区间右边的值
  6. #等宽分箱
  7. df['age_bin']=pd.cut(df['age_new'],5,labels=range(5))
  8. #不加标签 时。将分段的表征展示出来
  9. df['Price_bin']=pd.cut(df['Price_new'],bins=5,labels=range(0,5))
  10. df['Price_bin']
  11. #以柱状图绘制
  12. df['Price_bin'].value_counts().plot(kind='bar')
  13. #或df['Price_bin'].hist()
  14. #自定义分箱标准
  15. w=[100,1000,5000,10000,20000,100000]
  16. df['Price_bin']=pd.cut(df['Price_new'],bins=w)
  17. df[['Price_bin','Price_new']]
  18. df['Price_bin']=pd.cut(df['Price_new'],bins=w,labels=range(0,5))
  19. df[['Price_bin','Price_new']]
  20. df['Price_bin'].hist()
  21. #等频分段
  22. #w为分位点,labels是箱子的标签
  23. k=5
  24. w=[1.0*i/k for i in range(k+1)]
  25. w[0.0,0.2,0.4,0.6,0.8,1.0]
  26. #此处分为5段
  27. df['Price_bin']=pd.qcut(df['Price_new'],q=w,labels=range(5))
  28. df['Price_bin'].hist()
  29. #自定义等频分段,先算出分割点w1
  30. k=5
  31. w1=df["Price_new"].quantile([1.0*i/k for i in range(k+1)])
  32. #等频分割点
  33. w1
  34. #分段标准的最小值要小于数据的最小值,分段标准的最大值要大于数据的最大值
  35. w1[0]=w[0]*0.95
  36. w1[1.0]=w[1.0]*1.1
  37. df['Price_bin']=pd.cut(df['Price_new'],bins=w1,labels=range(0,5))
  38. df['Price_bin'].hist()

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/759945
推荐阅读
相关标签
  

闽ICP备14008679号