您的位置 首页 杂谈

线性回归中的“线性”理解

热血传奇连击私服,河南自考成绩,爱德华诺顿老婆

很多人都知道线性回归,当你的结局变量是连续变量,当你想观察某个或某些自变量(一般是引起某结局的原因)对结局变量的影响的时候,通常首先会想起线性回归。 尽管很多人都用过线性回归,但却…

很多人都知道线性回归,当你的结局变量是连续变量,当你想观察某个或某些自变量(一般是引起某结局的原因)对结局变量的影响的时候,通常首先会想起线性回归。

尽管很多人都用过线性回归,但却很少有人真正去关注线性回归的应用前提。线性回归几乎是非常完美的方法,但这种完美是有条件的,任何统计方法的应用都是有条件的,没有放之四海而皆准的真理,同样也没有用于任何数据而皆有效的方法。今天我们就来谈谈线性回归最基本的条件——线性。

所谓“线性”回归,那当然一定是“线性”才能用的回归。如果你的自变量和因变量之间的关系都不是“线性”关系,那还叫什么“线性”回归?

什么是线性,你找根线,拉一下,这就是线性。当然统计学中的线性关系不可能像你手中的线那么直,但起码应该是差不多呈直线关系。如下面的图就是线性的:

而下面这个图则不是线性的:

可能有人会说,这个看起来好像也是逐渐上升的趋势啊。没错,第二个图也可以用线性回归来描述。但是请记住,我们为什么要用回归模型呢?目的是为了找到一个模型,能够十分贴切地描述数据。

让我们看一下,如果对第二个图分别用线性和非线性来描述,会是什么样子:

就算用肉眼看都能看出,紫色的线对数据的拟合效果更好,通俗来说就是更贴近数据。

如果用线性回归,你会发现结果是这样的:

看起来x好像没有统计学意义啊,P值大于0.05。但是不要灰心,对x做一下変量変换再看一下。

如果用二次项回归,结果为:

看起来就有统计学意义了。一次项和二次项都有统计学意义。

所以说,并不是看到连续资料的关系,就一定要用线性回归。线性回归,只能给出你“线性”关系的回归,但如果本身二者就不是“线性”关系,那你肯定不可能硬生生地造出线性回归来。

所以,如果以后你做线性回归,如果你没有事先看一下自变量和因变量的关系,即使你得出的结果没有统计学意义,也未必说明x和y没有关系。没有“线性”关系,不代表没有“关系”。因为关系不仅仅有线性的,也有非线性的。事实上,可能非线性的关系更多见。

因此,建议各位在应用线性回归之前,一定要先绘制散点图,看看二者是不是线性关系。如果不是,没有问题,可以对因变量或自变量进行变换。

最好是对自变量进行变换,因为如果你变了因变量,把因变量y变成了lny,lny对x是线性关系了,但lny对z变量呢?说不定就不是线性了。也就是说,y是要对应很多自变量的,最好的就是变换x。

至于说,如何变换,这就得根据实际情况了,没有一概而论的情形。必须结合散点图的形状而定。如果你实在搞不定,那就去请教统计学家吧。毕竟,你收集了这么多数据,在最后的分析上也应该花点心血才对。

本文来自网络,不代表加推新闻网立场,转载请注明出处:http://www.bafangmiaomu.com/shehui/98523/

作者: 头条新闻

为您推荐