代码之家  ›  专栏  ›  技术社区  ›  fmark

在单变量最小二乘回归中,多个r平方和调整后的r平方有什么区别?

  •  39
  • fmark  · 技术社区  · 14 年前

    有人能给统计上天真的人解释一下 Multiple R-squared Adjusted R-squared 是?我正在做一个单变量回归分析,如下所示:

     v.lm <- lm(epm ~ n_days, data=v)
     print(summary(v.lm))
    

    结果:

    Call:
    lm(formula = epm ~ n_days, data = v)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -693.59 -325.79   53.34  302.46  964.95 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2550.39      92.15  27.677   <2e-16 ***
    n_days        -13.12       5.39  -2.433   0.0216 *  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
    
    Residual standard error: 410.1 on 28 degrees of freedom
    Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
    F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 
    
    4 回复  |  直到 9 年前
        1
  •  60
  •   neilfws    14 年前

    调整后的r平方中的“调整”与变量数量和观测数量有关。

    如果你不断地在你的模型中添加变量(预测因子),r平方将会改进——也就是说,预测因子会解释方差——但其中一些改进可能仅仅是由于偶然性。因此,调整后的r平方试图通过考虑比率(n-1)/(n-k-1),其中n=观察数,k=变量数(预测数),来纠正这一点。

    在您的案例中,这可能不是一个问题,因为您有一个单一的变量。

    一些参考文献:

    1. How high, R-squared?
    2. Goodness of fit statistics
    3. Multiple regression
    4. Re: What is "Adjusted R^2" in Multiple Regression
        2
  •  8
  •   Yorgos    14 年前

    调整后的r平方接近但不同于r2的值。它不是基于解释的平方和ssr和平方和ssy的总和,而是基于总体方差(我们通常不计算的一个量),s2t=ssy/(n-1)和误差方差mse(来自方差分析表),计算如下:调整后的r平方=(s2t-mse)/s2t。

    这种方法为判断由于添加了解释变量而导致的拟合改进提供了更好的基础,但它没有R2所具有的简单的汇总解释。

    如果我没有犯错误,您应该按照以下方式验证调整后的r平方和r平方的值:

    s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
    MSE <- anova(v.lm)[[3]][2]
    adj.R2 <- (s2T - MSE) / s2T
    

    另一方面,r2为:ssr/ssy,其中ssr=ssy-sse

    attach(v)
    SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
    SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
    SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
    R2 <- SSR / SSY 
    
        3
  •  6
  •   Jay    14 年前

    R平方与模型中变量的数量无关。调整后的r平方为。

    调整后的r平方加上了一个惩罚,即向模型中添加与您试图解释的变量不相关的变量。您可以使用它来测试变量是否与您试图解释的内容相关。

    调整后的r平方是r平方,加上一些除法,使其依赖于模型中变量的数量。

        4
  •  2
  •   Phil Goetz    9 年前

    注意,除了预测变量的数量外,上面调整后的r平方公式也会根据样本大小进行调整。一个小样本会得到一个大的r平方。

    实验教育69(2):203-224,“多元回归中R平方收缩的估计”,Ping Yin&Sitao Fan,J.比较了调整R平方的不同方法,得出上述常用方法不好的结论。他们推荐Olkin&Pratt配方。

    然而,我已经看到一些迹象表明人口规模的影响比这些公式中的任何一个都要大得多。我不相信这些公式中的任何一个都足以让你比较不同样本量的回归(例如,2000个样本与200000个样本;标准公式几乎没有基于样本量的调整)。我会做一些交叉验证来检查每个样本的r平方。