赞
踩
目录
用于考察变量间数量关联密切程度的统计分析方法,比如身高越高,体重一般会越大。
几乎所有涉及到多个变量的假设检验方法,都可以被看做是这些变量间的关联性分析。
1、t检验:分组变量与连续因变量间的关联性分析
2、卡方检验:行、列分类变量间的关联性分析
3、聚类分析:案例间的关联性分析
4、多变量回归:因变量和一组自变量间的关联性分析
以下是常见的相关分析以及代码实现:
两个变量都是连续正态连续变量,且两者之间呈线性关系。备注:在进行相关分析之前进行图表展示以查看数据是否为线性分布
- # 图表展示的代码
-
- import matplotlib.pyplot as plt
- plt.scatter(x,y) #使用散点图
- plt.show()
计算两个变量的协方差,协方差可以放映两个随机变量的相关程度,但是可能存在二维空间中分布的一些数据,变量之间相关程度较小,但是数据分布的比较离散,这样会导致求出的协方差值较大,只用协方差就不合理,所以pearson相关系数是在协方差的基础上除以两个随机变量的标准差。
该系数结果是一个-1到1之间的值,绝对值越大表明相关性越强,正数为正相关,负数为相关,相关系数为0,表明它们之间不存在线性相关关系。
- #调用代码
- np.corrcoef(a)#可计算行与行之间的相关系数,
- np.corrcoef(a,rowvar=0)#用于计算各列之间的相关系数
-
-
- #应用案例
- import numpy as np
- data = np.array([[10, 10, 8, 9, 7],
- [4, 5, 4, 3, 3],
- [3, 3, 1, 1, 1]])
-
- np.corrcoef(data)
- #输出结果,可见第一组数据和第三组数据相关性挺高
- '''
- array([[ 1. , 0.64168895, 0.84016805],
- [ 0.64168895, 1. , 0.76376262],
- [ 0.84016805, 0.76376262, 1. ]])
- '''
- np.corrcoef(data,rowvar=0) #用于计算列之间的相关系数

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。