Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
为什么GLM与带有转换变量的LM不同
如本课程讲义(第1页)中所述,线性模型可以用以下形式编写: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中是响应变量, 是第说明变量。yyyxixix_{i}ithithi^{th} 通常以满足测试假设为目标,可以转换响应变量。例如,我们在每个上应用log函数。转换响应变量并不等同于执行GLM。yiyiy_i 可以采用以下形式编写GLM(再次从课程讲义中(第3页)) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中仅仅是另一个符号Ÿ当我从第2页,课程讲义理解。g()称为链接函数。uuuyyyg()g()g() 在课程中,我不太了解GLM和带有转换后的变量的LM之间的区别。你能帮我吗?


2
使用带有ARIMA错误的回归进行推理的平稳性要求是什么?
使用带有ARIMA错误的回归(动态回归)进行推理的平稳性要求是什么? 具体来说,我有一个非平稳的连续结果变量,一个非平稳的连续预测变量和一个虚拟变量处理序列。我想知道治疗是否与结果变量的变化相关,该变化大于零变化之外的两个标准误差。ÿÿyX一种X一种x_aXbXbx_b 我不确定在使用ARIMA错误建模进行回归之前是否需要对这些序列进行差分处理。在回答另一个问题时,IrishStat指出的是while the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.,他然后继续补充说 unwarranted usage [of differencing] can create statistical/econometric nonsense。 该SAS用户指南表明,它是罚款,以适应回归模型ARIMA误差的非平稳序列无差分,只要残差非平稳: 请注意,平稳性要求适用于噪声序列。如果没有输入变量,则响应序列(在求和后减去平均值)和噪声序列相同。但是,如果有输入,则噪声序列是在消除输入影响后的残差。 不需要输入序列是固定的。如果输入是不稳定的,即使噪声过程可能是固定的,响应序列也将是不稳定的。 当使用非平稳输入序列时,可以在没有ARMA模型的情况下将输入变量拟合为误差,然后在确定噪声部分的ARMA模型之前考虑残差的平稳性。 另一方面,Rob Hyndman和George Athanasopoulos断言: 估计具有ARMA错误的回归的重要考虑因素是模型中的所有变量必须首先是平稳的。因此,我们首先必须检查yt和所有预测变量是否都固定。如果我们在其中任何一个都不平稳的情况下估计模型,则估计的系数可能是错误的。(x1 ,吨,… ,xķ ,吨)(X1个,Ť,…,Xķ,Ť)(x_{1,t},\dots,x_{k,t}) 一个例外是非平稳变量被共同积分的情况。如果在非平稳和预测变量之间存在线性组合,则估计的系数是正确的。ÿŤÿŤy_t 这些建议相互排斥吗?应用分析师如何进行?


3
将更多变量添加到多变量回归中是否会更改现有变量的系数?
假设我有一个由3个变量组成的多变量(几个独立变量)回归。这些变量中的每一个都有给定的系数。如果我决定引入第四个变量并重新运行回归,则三个原始变量的系数会改变吗? 更广泛地说:在多变量(多个独立变量)回归中,给定变量的系数是否受另一个变量的系数影响?

1
需要回归中的数据居中和标准化
考虑采用某种正则化的线性回归:例如,找到使| |最小的。| A x − b | | 2 + λ | | x | | 1个xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常,将A的列标准化为具有零均值和单位范数,而的中心为具有零均值。我想确定我对标准化和居中原因的理解是否正确。bbb 通过使和b列的均值为零,我们不再需要拦截项。否则,目标将是| | A x − x 0 1 − b | | 2 + λ | | x | | 1。通过使A的列的范数等于1,我们消除了仅由于A的一列具有很高的范数而在x中获得较低系数的情况的可能性,这可能导致我们错误地得出结论: A不能很好地“解释” x。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx 这种推理并不严格,而是凭直觉,这是正确的思维方式吗?

2
为什么正交投影的投影矩阵是对称的?
我对此很陌生,所以如果问题很幼稚,希望您能原谅我。(上下文:我正在从Davidson和MacKinnon的书《计量经济学的理论与方法》中学习计量经济学,他们似乎并没有对此进行解释;我还看了Luenberger的优化书,该书以更高的水平处理了预测,但是没有运气)。 假设我有一个正交投影与相关联的投影矩阵。我有兴趣将每个向量投影到某个子空间。PP\mathbb PPP\bf PRn[Rñ\mathbb{R}^nA⊂Rn一种⊂[RñA \subset \mathbb{R}^n 问题:为什么遵循,即是对称的?我可以从哪本教科书看这个结果?T PP=PP=P\bf{P}=PTŤ^TPP\bf P

4
经典线性模型-模型选择
我有一个经典的线性模型,带有5个可能的回归变量。它们彼此不相关,并且与响应的相关性很低。我已经建立了一个模型,其中3个回归变量的t统计量具有显着系数(p <0.05)。对于添加的变量,将其余2个变量中的一个或两个相加得出t统计量的p值> 0.05。这使我相信3变量模型是“最佳”的。 但是,在R中使用anova(a,b)命令,其中a是3变量模型,b是完整模型,F统计量的p值<0.05,这表明我更喜欢完整模型而不是3变量模型。我该如何调和这些明显的矛盾? 谢谢PS编辑:一些进一步的背景。这是家庭作业,因此我将不发布细节,但是我们没有提供回归变量代表的详细信息-它们只是从1到5编号。我们被要求“推导适当的模型,给出理由”。

2
使用R的nls()进行变更点分析
我正在尝试实现“变化点”分析或nls()在R中使用的多阶段回归。 这是我制作的一些虚假数据。我想用来拟合数据的公式是: ÿ= β0+ β1个x + β2最大(0 ,X - δ)ÿ=β0+β1个X+β2最大值(0,X-δ)y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) 这应该做的是使数据具有特定的截距和斜率(β0β0\beta_0和β1个β1个\beta_1),直到特定点,然后在某个x值(δδ\delta)之后,将斜率增加β2β2\beta_2。这就是整个最大事情。在δδ\delta点之前,它等于0,并且β2β2\beta_2将被清零。 因此,这是我的功能: changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } 我尝试以这种方式拟合模型 nls(y ~ changePoint(x, b0, slope1, slope2, delta), data = data, start = c(b0 = 50, …

2
回归的自然三次样条的定义
我正在从Hastie等人的《统计学习的数据挖掘,推理和预测的要素》一书中学习样条曲线。我在第145页上发现,自然三次样条曲线在边界结之外是线性的。有KKK结,ξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_K在栓和下面给出关于在书中这样一个样。 问题1:如何释放4个自由度?我没有这部分。 问题2:在定义时ķ = ķ然后ð ķ(X )= 0dk(X)dk(X)d_k(X)k=Kk=Kk=K。作者在这个公式中想做什么?这如何帮助确保样条曲线在边界结之外是线性的?dK(X)=00dK(X)=00d_K(X) = \frac 0 0

1
线性回归的最小点数
用线性回归寻找随时间变化趋势的“合理”最少观察数是什么?拟合二次模型怎么样? 我使用卫生方面的不平等综合指数(SII,RII)进行调查,只有四次调查,因此有4分(1997、2001、2004、2008)。 我不是统计学家,但我有直观的印象4分还不够。您有答案和/或参考资料吗? 非常感谢, 弗朗索瓦
16 regression 

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

3
statsmodel OLS和scikit线性回归之间的差异
我有一个关于来自不同库的两种不同方法的问题,这些方法似乎做同样的工作。我正在尝试建立线性回归模型。 这是我将statsmodel库与OLS一起使用的代码: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared 打印输出GFT + Wiki / GT R平方0.981434611923 第二个是scikit学习库线性模型方法: model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) print 'GFT + Wiki / GT …

2
为什么L2范数损失有唯一的解决方案,而L1范数损失可能有多个解决方案?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ 如果您查看这篇文章的顶部,那么作者会提到L2规范具有唯一的解决方案,而L1规范可能具有很多解决方案。我从正则化的角度理解了这一点,但从在损失函数中使用L1范数或L2范数的角度理解。 如果查看标量x(x ^ 2和| x |)的函数图,则可以很容易地看到两者都有一个唯一的解决方案。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.