正文
13 相关分析
协方差
两个随机变量之间关系 | 正相关 | 不相关(相互独立) | 负相关 |
---|---|---|---|
协方差 | >0 | =0 | <0 |
X与与自己的协方差就是X的方差
对于样本数据:
协方差可以反映两个变量的关联程度, 但是不好度量
13.2 皮尔森相关系数
皮尔森相关系数是用来度量两个连续型的随机正态变量之间的线性关系的一种随机变量特征量
协方差÷标准差
13.3 相关系数的计算与假设检验
13.3.1 相关系数的计算
1 矩阵中行数据之间的相关系数的计算和列数据之间的相关系数的计算
|
data source
[[10 10 8 9 7]
[ 4 5 4 3 3]
[ 3 2 1 1 1]]
corrcoef between rowdata
[[1. 0.64168895 0.77174363]
[0.64168895 1. 0.53452248]
[0.77174363 0.53452248 1. ]]
corrcoef between columndata
[[1. 0.9694552 0.9526832 0.9939441 0.97986371]
[0.9694552 1. 0.99813671 0.99053606 0.99890611]
[0.9526832 0.99813671 1. 0.98031562 0.99419163]
[0.9939441 0.99053606 0.98031562 1. 0.99587059]
[0.97986371 0.99890611 0.99419163 0.99587059 1. ]]
如corrcoef between rowdata[0][1]或corrcoef between rowdata[1][0]所表示的是数组第0行数据[10, 10, 8, 9, 7]和第一行数据[4, 5, 4, 3, 3]的相关系数0.64168895
一组数据和自身的相关系数为1
2 理论计算与函数计算之间的比较
|
月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
月平均气温t/°C | 3.8 | 4.0 | 5.8 | 8.0 | 11.3 | 14.4 | 16.5 | 16.2 | 13.8 | 10.8 | 6.7 | 4.7 |
降雨量p/mm | 77.7 | 51.2 | 60.1 | 54.1 | 55.4 | 56.8 | 45.0 | 55.3 | 67.5 | 73.3 | 76.6 | 79.6 |
伦敦市平均气温t与降水量p之间的相关系数:
|
array([[ 1. , -0.48949468],
[-0.48949468, 1. ]])
13.3.2 相关系数的显著性检验
10个学生初一数学分数X与初二数学分数Y如下表所示, 求它们之间的相关系数, 并从总体角度判断初一和初二数学分数是否存在关联?
1 计算成绩间的相关系数
|
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 总和 |
---|---|---|---|---|---|---|---|---|---|---|---|
X | 74 | 71 | 72 | 68 | 76 | 73 | 67 | 70 | 65 | 74 | 710 |
Y | 76 | 75 | 71 | 70 | 76 | 79 | 65 | 77 | 62 | 72 | 723 |
|
array([[1. , 0.7802972],
[0.7802972, 1. ]])
得到相关系数: $r = 0.7802972$
2 构建假设检验确定总体数据间是否存在关联
根据样本数据提出总体的一个假设
假设$H_0:\rho=0,H_1:\rho\ne0$
对于成对数据的检验, 一般用t检验, 构建检验统计量
The Pearson linear correlation coefficient (r) for n pairs of independent observations can be tested against the null hypothesis (ie.: >no correlation) using the statistic
t = r*sqrt[ (n-2)/(1-r^2) ]
This statistic has a Student-t distribution with n-2 degrees of freedom.(此统计量具有具有 n-2 个自由度的学生 t 分布)
在显著水平$\alpha=0.01$的情况下, 采用$t$双边检验, 可以得到相关系数$\rho\ne0$, 即在显著水平0.01下, 初一数学成绩和初二成绩之间存在显著的相关关系
|
相关系数: 3.52891333162547 > 3.3553873313333957
显著性水平: 0.007744294734007395 < 0.01
|
cor = 0.7802972005173809
pv = 0.007744294734007256
cor即为两组数据之间的相关系数
pv为显著性水平
例13.4
|
correlation 0.9891763198690562
pvalue 5.926875946481136e-08
13.4 斯皮尔曼等级相关
13.4.1 皮尔森相关系数的局限性
对于非线性关系, 相关性的检测功效会下降
13.4.2 斯皮尔曼等级相关系数
【数据科学】斯皮尔曼的等级相关系数(Spearman's coefficient)
1 斯皮尔曼等级相关系数的表示
斯皮尔曼等级相关主要用于解决名称数据和顺序数据相关的问题.当两个变量值以等级次序排列或以等级次序表示时, 两个相应的总体并不一定呈正态分布, 样本容量也不一定大于30, 这种情况下可以用斯皮尔曼等级相关来描述两个变量之间的相关关系.
$n$为等级个数, $d$为二列成对变量的等级差数
无论两个变量的数据如何变化, 符合什么样的分布, 我们只关心每个数值在变量内的排列顺序(秩)
当每个变量是另一个的完美单调函数时,发生+1或-1的完美斯皮尔曼相关
数据中出现了有相同等级的数据,一般对于有相同等级的数据的个体用所占有的平均等级作为它们的共同等级,比如有两个数据大小相同,分别占据5,6等级,则将5.5作为它们的共同等级
3 斯皮尔曼等级相关系数显著性检验
4 应用Python函数库计算斯皮尔曼等级相关系数
1 直接计算斯皮尔曼等级相关系数
|
|
correlation: 0.9878787878787878
pvalue: 9.307459988955517e-08
2 先将原始数据转换成等级数据, 再计算斯皮尔曼等级相关系数
|
[10. 4. 1. 6. 2. 5. 3. 7. 8. 9.]
[ 9. 4. 1. 6. 2. 5. 3. 7. 8. 10.]
correlation: 0.9878787878787878
pvalue: 9.307459988955517e-08
用等级数据计算得到的斯皮尔曼相关系数和显著性水平与原始数据计算得到的数据相同
|
correlation: 0.9878787878787879
pvalue: 3.419486915845482e-14
13.5 肯德尔系数
描述K个评分这对N个对象评价的一致性
13.5.3 肯德尔相关系数的显著性检验
|
tau 0.6
p_value 0.23333333333333334
说明等级数据x1和x2的肯德尔相关系数为0.6, 其显著性水平约为0.233, 二者呈现出较弱的一致性
13.6 质量相关分析
质量相关分析也是研究两个变量之间的相关关系的分析方法, 其中
一个变量描述事物总体的性质或特点, 如男与女, 优与劣, 及格与不及格等(一般是离散的形式)
另一个变量以数量形式描述事物的具体性质, 如智商, 学科分数, 身高, 体重等
这两个变量之间的相关关系就是质量相关
13.6.1 二列相关
1 二列相关的数学定义
当两个变量都是正态连续变量, 其中一个变量被人为地划分成二分变量
变量 | 含义 |
---|---|
$p$ | 二分变量中某一类别频率的比率 |
$q$ | 二分变量中另一类别频率的比率 |
$\bar{X_p}$ | 二分变量中$p$类别相对应的连续变量的平均值 |
$\bar{X_q}$ | 二分变量中$q$类别相对应的连续变量的平均值 |
$\sigma$ | 连续变量的标准差 |
$Y$ | 正态曲线中累积概率$p$相对应的概率密度函数值 |
2 二列相关实例
例13.10
某次考试中, 有10名考生的成绩如下表所示, 包含总分和一道问答题, 试求该道问答题的区分度(该问答题得分与卷面总分的相关度)(人为规定问答题$\ge$6为通过, 否则为未通过)
|
考生 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
卷面总分 | 75 | 57 | 73 | 65 | 67 | 56 | 63 | 61 | 65 | 67 |
问答题总分 | 7 | 6 | 7 | 4 | 7 | 4 | 4 | 4 | 7 | 6 |
由于问答题以6分为界进行区分, 由样本数据确定$p=0.60, q=0.40$
|
p: 0.6
q: 0.4
当$p=0.6$时, 查正态分布表得到连续随机变量$x=0.25$
|
x: 0.2533471031357997
当$x=0.25$时, 代入标准正态分布函数$Y = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
得到$Y=0.3866$
|
Y: 0.38634253349686054
根据问答题得分分类, 计算卷面总分相应类比的平均数及样本均方差
$\bar{X_p}=67.33, \bar{X_q}=61.25, \sigma=6.12$
|
X_p_bar: 67.33333333333333
X_q_bar: 61.25
std: 6.118278625016463
通过公式计算得到二列相关系数
|
0.617662281919257
从二列相关系数的值, 可以看到问答题得分对总分的区分度略高
13.6.2 点二列相关
质量分析中用来描述事物总体性质的离散变量, 如果其性质本身就具有离散性质, 而不是人为地将连续变量划分成为连续变量, 这时候的相关关系称为点二列相关.
13.6.3 Python对点二列相关的支持
|
pointbiserialcorrcoef 0.7849870641173373
pvalue 4.145927973490357e-05
点二列相关系数约为0.785, 说明两组数据具有较好的一致性
输出的显著性水平的值很小, 表示相关系数具有统计学意义
13.7 品质相关分析
如果两个变量都是用来描述事物的综合性质且都是划分成几种类别来表示, 则称这两个变量之间的相关关系为品质相关
有两种不同的品质相关: 列连相关和$\varphi$相关
13.7.1 列连相关系数
1 列连相关系数的数学表示
当至少一个变量被分成两个以上类别, 则这两个变量之间的相关程度可用列连相关系数来测度.
假设变量$x$被分成$a$个类别, $y$被分成$b$个类别, 而且$a$和$b$至少有一个大于2, 此时变量$x$与变量$y$的列连相关系数记为C
记$m_{ij}$为观察数据属于变量$x$的第$i$个类别$(i=1,2,...,a)$, 变量$y$的第$j$类别$(j=1, 2, ..., b)$的频数
构造统计量:
其中$N=\Sigma\Sigma m_{ij}$, 这样可以得到列连相关系数$C$的计算公式
对于列连相关, 可以用卡方检验进行总体性质推断, 若卡方检验显著, 则列连相关系数也显著
2 列连相关系数的计算实例
计算调查对象和态度之间的列连相关系数, 并进行显著性检验
调查对象/态度 | 赞成 | 不置可否 | 反对 | 总计 |
---|---|---|---|---|
低年级学生 | 446 | 212 | 319 | 977 |
高年级学生 | 273 | 193 | 324 | 790 |
教师 | 262 | 325 | 177 | 764 |
总计 | 981 | 730 | 820 | 2531 |
$\chi^2=N(\Sigma\Sigma\frac{m^2 _ {ij}}{a _ ib _ j}-1) \approx130.02$
$C=\sqrt{\frac{\chi^2}{N+\chi^2}}=\sqrt{\frac{130.2}{2531+130.2}}=0.221$
|
chi_square: 130.0172447754466
C: 0.22104293310887424
|
13.276704135987625
因为$\chi^2=130.02>13.277$, 所以求得系数$C=0.221$具有显著意义
13.7.2 $\varphi$相关
1 $\varphi$相关系数的数学定义
当两个变量都是二分变量, 则这两个变量之间的相关系数称为$\varphi$相关系数
A和B的2x2列连 | $B_1$ | $B_2$ | 合计 |
---|---|---|---|
A_1 | a | b | a+b |
A_2 | c | d | c+d |
合计 | a+c | b+d | N=a+b+c+d |
则A和B的$\varphi$系数的计算公式可以表示为:
易证:
(正负号由$ad-bc$的值决定)
2 $\varphi$相关系数的应用
R/C | 肯定 | 否定 | 合计 |
---|---|---|---|
男生 | 22 | 88 | 110 |
女生 | 18 | 42 | 60 |
合计 | 40 | 130 | 170 |
所以求得的$\varphi$相关系数不具有统计显著意义
13.8 偏相关与复相关
13.8.1 偏相关
在多要素所构成的系统中, 先不考虑其他要素的影响, 单独研究两个要素之间的相互关系的密切程度
1 一阶偏相关系数
控制3, 计算1和2的净影响
3组变量共有$C^2_3=3$个一阶偏相关系数
2 二阶偏相关系数
4组变量共有$C^2_4=6$个二阶偏相关系数
13.8.2 复相关
反映几个要素与某一个要素之间的复相关程度, 复相关系数介于0~1
复相关系数越大, 表明变量之间的相关程度越密切, 复相关系数为1, 表示完全相关, 为0, 表示不相关
复相关系数必≥单相关系数的绝对值
复相关系数必≥同一系列数据所求得的偏相关系数的绝对值, 即$R_{1,23}\ge|r_{12,3}|$