【相关系数的计算公式】在统计学中,相关系数是用来衡量两个变量之间线性关系密切程度的一个指标。它可以帮助我们了解一个变量的变化是否与另一个变量的变化有关联。常见的相关系数包括皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。下面将对这些相关系数的计算公式进行总结,并通过表格形式清晰展示。
一、皮尔逊相关系数(Pearson Correlation Coefficient)
适用场景:用于衡量两个连续变量之间的线性相关程度。
计算公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}
$$
其中:
- $ x_i, y_i $ 是两个变量的观测值;
- $ \bar{x}, \bar{y} $ 分别是 $ x $ 和 $ y $ 的平均值;
- $ r $ 的取值范围为 [-1, 1],其中:
- $ r = 1 $ 表示完全正相关;
- $ r = -1 $ 表示完全负相关;
- $ r = 0 $ 表示无相关性。
二、斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)
适用场景:用于衡量两个变量之间的单调关系,适用于非正态分布或有序数据。
计算公式:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $ d_i = R(x_i) - R(y_i) $,即两个变量对应值的等级差;
- $ n $ 是样本数量;
- $ \rho $ 的取值范围同样为 [-1, 1]。
三、肯德尔等级相关系数(Kendall Rank Correlation Coefficient)
适用场景:用于评估两个变量之间的排序一致性,适用于小样本或有序数据。
计算公式:
$$
\tau = \frac{C - D}{\frac{1}{2}n(n - 1)}
$$
其中:
- $ C $ 是一致对的数量;
- $ D $ 是不一致对的数量;
- $ n $ 是样本数量;
- $ \tau $ 的取值范围为 [-1, 1]。
四、相关系数对比表
| 相关系数类型 | 适用数据类型 | 计算公式 | 特点 |
| 皮尔逊相关系数 | 连续变量 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} $ | 衡量线性相关性 |
| 斯皮尔曼等级相关系数 | 有序变量/非正态数据 | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $ | 衡量单调相关性 |
| 肯德尔等级相关系数 | 有序变量 | $ \tau = \frac{C - D}{\frac{1}{2}n(n - 1)} $ | 衡量排序一致性 |
总结
相关系数是分析变量间关系的重要工具,不同类型的系数适用于不同的数据类型和研究目的。选择合适的相关系数能够更准确地反映变量之间的关系,从而为数据分析提供有力支持。在实际应用中,应根据数据特征和研究需求合理选择相关系数类型,并结合图表和统计检验进行综合判断。


