在回归分析中,R-squared的值应该取多大?


在回归分析中,R-squared的值应该取多大?

在回归分析中,究竟R2应该取多大? 我们经常听到这个疑问。

以前,我们分享过如何解释过R-Square(R2),我们还纠正了一个统计上的误区,即较低的R-square不一定差,较高的R-square不一定好。

显然,“R-square应该多高”的答案就是…视情况而定。

在这篇文章中,我将帮你更加准确地回答这个问题。但是,请容许我告诉你,如果你问了这个问题,那么,你可能问错了。我会告诉你,应该问哪些问题,以及如何进行解答。

为什么说它是一个错误的问题?

那么R-squared究竟应该取多大? 这个问题只有一个可能的答案,那就是R2 必须等于使用线性模型可以解释响应变

量变化的百分比,并没有多少之分。

当你问这个问题时,你真正想知道的是:回归模型是否能达到您的目标?模型是否能够满足你的要求?

我将帮你问和回答正确的问题,这取决于你对线性回归模型的主要目标:
          描述预测变量和响应变量之间的关系
          或者预测响应变量的值

R-squared与预测变量及响应变量之间的关系

这个很简单,如果你的主要目标是确定哪些预测变量是显著的,以及如何预测因子的变化与响应变量的变化,那么这将跟R-squared毫无关系。

如果你正确地指定了一个回归模型,R-squared的值将不会影响你对预测变量和响应变量之间关系的诠释。

假设你建立了输入和输出之间关系的模型,但是发现输入对应的P值是显著的,它的系数是2,所以无法拒绝原假设。

这些结果表明,在输入时增加1,那么与之对应的是在输出中平均增加2。这个解释是正确的,无论R-squared的值是

25%还是95% !

问“平方应该多高? “在这种情况下没有意义,因为它与之毫无关系。较低的R-squared并不能否定一个显著的预测因子

或改变系数的意义。无论R-squared的值有多大,它都是一个简单的统计量,不需要达到任何特定的大小以满足解释

的有效性。

为了确认你的解释,你应该问哪些问题呢?

我的模型是否值得依赖?得到的结果切合理论吗?

我能相信我的数据吗?

残差的假设和其它的假设成立吗?

我应该如何解释P值和回归系数?

R-squared与响应变量预测

如果你的主要目标是获得精确的预测,那么R-squared将是一个值得考虑的问题。预测并不是简单地获得一个预测值,

在预测中会包含一个误差;越是精确的预测,误差越少。

在这里,之所以考虑R-squared是因为较低的R-squared,意味着模型误差较大。因此,较低的R-squared可以对不精确

的预测进行预警。但是,你不能通过R-squared来确定您的预测是否能精确到你需要的程度。

这就是为什么“R-squared应该取多大? ”是一个不恰当的问题。

那么你应该问哪些问题呢? 作为上面的问题的补充,你应该问:

预测区间是否足够精确?它能满足我的需求吗?

不必担心,Minitab软件可以使这个评估过程变得很容易。

预测区间和精度

预测区间表示的是在给定设置下,预测值可能的范围。 这些区间考虑了预测时的平均误差,预测区间越窄,就意味

着预测越精确。



例如,在以前的文章中,我使用体重指数(BMI)来预测身体脂肪的百分比,当BMI为18时,身体脂肪百分比的预测区

间是16 - 30%。 我们可以以95%的置信度确定,新观测值会落在这个范围内。

您可以使用专业领域的知识、规格限要求、客户要求等因素来确定预测间隔是否足够精确,以满足您的需求。这种

方法可以直接评估模型的精度,远比随意选择一个R-squared值作为临界点更为合适。

针对身体脂肪比例的模型,我猜预测范围会很大,可能无法提供有意义的临床信息,但是医生会更了解这些情况的细节。

R-squared被高估了

当你询问,“R-squared应该取多大?”时,可能是因为你想确定,当前回归模型是否能够满足要求。我希望你有更好的

方法来解决这这个问题而不是通过R-squared!

在分析中,R-squared之所以得到如此多的关注,是因为它是一个简单而直观的统计量。我在这里否定R-squared,

这并不是说R-squared没有用处。举例来说,如果你执行一项研究,但是发现相似的研究通常有更高或更低的R-

squared,你有必要调查R-squared差异的原因。

在我的下一篇文章中,我们将一起了解回归分析的标准误差S,一个不同的拟合优度统计量,这个可能比R-squared更有帮助。

如果你在学习回归分析,请看我的回归教程!