当前位置:   article > 正文

python 相关分析_python相关性分析

python相关性分析

目录

1、背景

2、连续变量的相关分析

2.1 使用条件

2.2 使用系数 pearson

2.2.1 系数计算逻辑

2.2.2 系数公式

2.2.3 结果解释

2.3 应用案例

2.4 相关系数的显著性检验

2.4.1 显著性检验案例

3、等级变量的相关分析

3.1 适用条件

3.2 使用系数 spearmanr

3.2.1 系数使用公式

4、连续变量&分类变量 相关分析

4.1 二列相关适用条件

4.2 二列相关公式

4.3 点二列相关适用条件

4.4 点二列相关公式

4.5 代码实现

5、类别变量相关分析

5.1 适用条件

5.2 使用卡方进行相关分析


1、背景

用于考察变量间数量关联密切程度的统计分析方法,比如身高越高,体重一般会越大。

几乎所有涉及到多个变量的假设检验方法,都可以被看做是这些变量间的关联性分析。

1、t检验:分组变量与连续因变量间的关联性分析

2、卡方检验:行、列分类变量间的关联性分析

3、聚类分析:案例间的关联性分析

4、多变量回归:因变量和一组自变量间的关联性分析

以下是常见的相关分析以及代码实现:

2、连续变量的相关分析

2.1 使用条件

两个变量都是连续正态连续变量,且两者之间呈线性关系。备注:在进行相关分析之前进行图表展示以查看数据是否为线性分布

  1. # 图表展示的代码
  2. import matplotlib.pyplot as plt
  3. plt.scatter(x,y) #使用散点图
  4. plt.show()

2.2 使用系数 pearson

2.2.1 系数计算逻辑

计算两个变量的协方差,协方差可以放映两个随机变量的相关程度,但是可能存在二维空间中分布的一些数据,变量之间相关程度较小,但是数据分布的比较离散,这样会导致求出的协方差值较大,只用协方差就不合理,所以pearson相关系数是在协方差的基础上除以两个随机变量的标准差。

2.2.2 系数公式

\rho_{X,Y }=\frac{cov(X,Y))}{\sigma _{X}\sigma _{Y}} = \frac{E[(X-\mu_{X })(Y-\mu_{Y })]}{\sigma _{X}\sigma _{Y}}

2.2.3 结果解释

该系数结果是一个-1到1之间的值,绝对值越大表明相关性越强,正数为正相关,负数为相关,相关系数为0,表明它们之间不存在线性相关关系。

2.3 应用案例

  1. #调用代码
  2. np.corrcoef(a)#可计算行与行之间的相关系数,
  3. np.corrcoef(a,rowvar=0)#用于计算各列之间的相关系数
  4. #应用案例
  5. import numpy as np
  6. data = np.array([[10, 10, 8, 9, 7],
  7. [4, 5, 4, 3, 3],
  8. [3, 3, 1, 1, 1]])
  9. np.corrcoef(data)
  10. #输出结果,可见第一组数据和第三组数据相关性挺高
  11. '''
  12. array([[ 1. , 0.64168895, 0.84016805],
  13. [ 0.64168895, 1. , 0.76376262],
  14. [ 0.84016805, 0.76376262, 1. ]])
  15. '''
  16. np.corrcoef(data,rowvar=0) #用于计算列之间的相关系数
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/940804
推荐阅读
相关标签
  

闽ICP备14008679号