【回归离差平方和】在统计学中,回归分析是一种用于研究变量之间关系的重要方法。在回归模型中,为了衡量模型对数据的拟合程度,常常需要用到一些关键的统计量,其中“回归离差平方和”(Sum of Squares for Regression,简称SSR)是一个重要的指标。
回归离差平方和是指由回归模型所解释的总变异部分,即预测值与总体均值之间的差异平方和。它反映了自变量对因变量变化的解释能力。数值越大,说明模型对数据的解释能力越强。
一、回归离差平方和的定义
回归离差平方和(SSR)计算公式如下:
$$
SSR = \sum_{i=1}^{n}( \hat{y}_i - \bar{y} )^2
$$
其中:
- $ \hat{y}_i $ 是第 $ i $ 个观测值的预测值;
- $ \bar{y} $ 是因变量 $ y $ 的平均值;
- $ n $ 是样本数量。
二、回归离差平方和的意义
指标 | 含义 |
SSR | 回归离差平方和,表示模型解释的变异部分 |
SSE | 残差离差平方和,表示模型未能解释的变异部分 |
SST | 总离差平方和,表示因变量的总变异 |
三者之间的关系为:
$$
SST = SSR + SSE
$$
通过比较这三个指标,可以判断回归模型的拟合效果。例如,若 SSR 占比大,则说明模型对数据的解释能力强;反之,若 SSE 占比大,则说明模型拟合较差。
三、应用实例
以下是一个简单的数据示例,用于展示如何计算回归离差平方和:
观测序号 | 自变量 $ x_i $ | 因变量 $ y_i $ | 预测值 $ \hat{y}_i $ | $ \hat{y}_i - \bar{y} $ | $ (\hat{y}_i - \bar{y})^2 $ |
1 | 1 | 2 | 2.5 | 0.5 | 0.25 |
2 | 2 | 3 | 3.5 | 1.5 | 2.25 |
3 | 3 | 4 | 4.5 | 2.5 | 6.25 |
4 | 4 | 5 | 5.5 | 3.5 | 12.25 |
5 | 5 | 6 | 6.5 | 4.5 | 20.25 |
假设 $ \bar{y} = 4 $,则:
$$
SSR = 0.25 + 2.25 + 6.25 + 12.25 + 20.25 = 41.25
$$
四、总结
回归离差平方和是衡量回归模型解释力的重要指标。它不仅有助于评估模型的拟合效果,还能与其他统计量结合使用,如决定系数 $ R^2 $,从而更全面地理解模型的表现。在实际应用中,合理计算和解读 SSR 可以帮助我们优化模型结构,提升预测精度。
名称 | 公式 | 含义 |
回归离差平方和 | $ SSR = \sum(\hat{y}_i - \bar{y})^2 $ | 模型解释的变异部分 |
残差离差平方和 | $ SSE = \sum(y_i - \hat{y}_i)^2 $ | 模型未解释的变异部分 |
总离差平方和 | $ SST = \sum(y_i - \bar{y})^2 $ | 因变量的总变异 |
决定系数 | $ R^2 = \frac{SSR}{SST} $ | 模型解释的变异比例 |