Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
有关如何归一化回归系数的问题
不确定normalize是否在此处使用正确的词,但是我会尽力说明我要问的问题。这里使用的估计量是最小二乘。 假设有Ŷ = β 0 + β 1 X 1y=β0+β1x1y=\beta_0+\beta_1x_1,则可以通过居中围绕平均值Ŷ = β ' 0 + β 1 X ' 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1',其中β ' 0 = β 0 + β 1 ˉ X 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1和X ' 1 = X - ˉ Xx′1=x−x¯x_1'=x-\bar x,使β ' 0β′0\beta_0'不再对估计任何影响β 1β1\beta_1。 我的意思是β 1在Ŷ = β 1 X ' …

2
残差异方差的度量
该维基百科链接列出了多种检测OLS残差异方差性的技术。我想了解哪种动手操作技术在检测受异方差影响的区域时更有效。 例如,在这里,OLS“残差vs拟合”图中的中心区域的方差比图中侧面的高(我并不完全确定事实,但出于问题考虑,我们假设是这种情况)。作为确认,查看QQ图中的错误标签,我们可以看到它们与残差图中心的错误标签匹配。 但是我们如何量化方差明显更高的残差区域呢?

3
根据残差的大小对数据集进行分层并进行两次样本比较,是否完全可以辩护?
我认为这是一种临时方法,对我来说似乎非常可疑,但也许我错过了一些东西。我已经在多元回归中看到了这一点,但让我们保持简单即可: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} 现在从拟合模型中提取残差 ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) 并根据残差的大小对样本进行分层。例如,假设第一个样本是残差的底部90%,第二个样本是残差的顶部10%,然后继续进行两个样本比较-我已经在模型xxx和不在模型中的变量上。所使用的非正式逻辑是,可能值远高于您在模型下期望值的点(即较大的残差)在某些方面有所不同,并以此方式调查了这种差异。 我对这个问题的想法是: 如果在模型中的预测变量上看到2个样本的差异,则存在模型未考虑其当前状态的预测变量的影响(即非线性影响)。 如果您看到模型中没有的变量存在2个样本的差异,那么也许它应该首先出现在模型中。 有一件事我经验发现(通过模拟)是,如果你是比较平均的预测模型中的xxx并以这种方式分层产生两个样本,x¯¯¯1x¯1\overline{x}_{1}和x¯¯¯2x¯2\overline{x}_{2},它们是彼此正相关。这是有意义的,因为这两个样品取决于y¯¯¯,x¯¯¯,σ^x,σ^yy¯,x¯,σ^x,σ^y\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}和ρ X ÿρ^xyρ^xy\hat{\rho}_{xy}。当您将截止值向下移动时,相关性会增加(即,您用于划分样本的百分比)。因此,至少,如果要进行两样本比较,则需要调整统计量分母中的标准误差以考虑相关性(尽管我尚未为协方差)。ttt 无论如何,我的基本问题是:这样做有任何理由吗?如果是这样,在什么情况下这可能是有用的事情?显然,我认为没有,但是有些事情我没有以正确的方式考虑。


2
用面板/纵向数据对回归数据进行标准化是否是一种好习惯?
通常,为了标准化比较系数,我在回归中对独立变量进行了标准化(这样,它们具有相同的单位:标准偏差)。但是,对于面板/纵向数据,我不确定如何标准化我的数据,特别是如果我估计一个层次模型。 要了解为什么这可能是一个潜在问题,请假设您有i=1,…,ni=1,…,ni = 1, \ldots, n个沿着t=1,…,Tt=1,…,Tt=1,\ldots, T周期测量的个体,并且测量了因变量yi,tyi,ty_{i,t}和一个自变量xi,txi,tx_{i,t}。如果运行完整的池回归,则可以通过以下方式标准化数据:x.z=(x−mean(x))/sd(x)x.z=(x−mean(x))/sd(x)x.z = (x- \text{mean}(x))/\text{sd}(x),因为它不会更改t统计量。另一方面,如果您适合一个非池化回归,即每个个体的一个回归,那么您应该仅按个体而不是整个数据集(在R代码中)对数据进行标准化: for (i in 1:n) { for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,]) } 但是,如果您将简单的层次模型拟合为具有不同个体截距的模型,那么您将使用收缩估计量,即,您正在估计池回归和非池回归之间的模型。我应该如何标准化我的数据?像汇总回归一样使用整个数据?只使用个人,例如在不公开的情况下?


2
汇总线性模型运行的结果R
由于回归建模通常比科学更“艺术”,因此我经常发现自己正在测试回归结构的许多迭代。有什么有效的方法可以汇总这些多个模型运行中的信息,从而找到“最佳”模型?我使用的一种方法是将所有模型放入列表并summary()在该列表中运行,但是我想有更有效的比较方法吗? 示例代码和模型: ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm1 <- lm(weight ~ group) lm2 <- lm(weight ~ group - 1) lm3 <- lm(log(weight) ~ group - 1) #Draw comparisions between models 1 - 3? models <- list(lm1, lm2, lm3) lapply(models, summary)
16 r  regression 

1
Logistic回归-多共线性问题/陷阱
在Logistic回归中,是否需要像在直接进行OLS回归中一样关注多重共线性? 例如,对于存在多重共线性的逻辑回归,是否需要谨慎(就像在OLS回归中一样),要从Beta系数中得出推断? 对于OLS回归,高多重共线性的一个“解决方案”是岭回归,是否有类似的逻辑回归?另外,删除变量或组合变量。 在逻辑回归中减少多重共线性影响的合理方法是什么?它们与OLS本质上相同吗? (注意:这并非旨在进行设计的实验)

1
高维回归:为什么
我正在尝试阅读有关高维回归领域的研究;当大于,即。似乎经常出现在回归估计量的收敛速度方面。Ñ p > > Ñ 日志p / Ñpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n 例如,这里的等式(17)表示套索拟合满足 1β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常,这还意味着logplog⁡p\log p应该小于nnn。 关于\ log p / n的比例为何logp/nlog⁡p/n\log p/n如此突出,是否有任何直觉? 而且,从文献中看来,当\ log p \ geq n时,高维回归问题变得复杂logp≥nlog⁡p≥n\log p \geq n。为什么会这样呢? 有没有很好的参考资料来讨论ppp和nnn应增长多快的问题?

3
Beta分布与逻辑回归模型之间有什么关系?
我的问题是:Beta分布与逻辑回归模型的系数之间的数学关系是什么? 为了说明: logistic(Sigmoid)函数由下式给出 f(x)=11+exp(−x)f(x)=11+exp⁡(−x)f(x) = \frac{1}{1+\exp(-x)} 它用于对逻辑回归模型中的概率进行建模。设为二分式评分结果,为设计矩阵。逻辑回归模型由下式给出AAA(0,1)(0,1)(0,1)XXX P(A=1|X)=f(Xβ).P(A=1|X)=f(Xβ).P(A=1|X) = f(X \beta). 注意XXX的第一列为常数111(截距),ββ\beta为回归系数的列向量。例如,当我们有一个(标准正态)回归变量xxx并选择β0=1β0=1\beta_0=1(拦截)和β1=1β1=1\beta_1=1,我们可以模拟所得的“概率分布”。 此图使人想起了密度由下式给出的Beta分布(与其他选择的图一样)。ββ\beta g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1)。g(y;p,q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} y^{(p-1)} (1-y)^{(q-1)}. 使用最大似然或矩量方法,可以根据的分布估算和。因此,我的问题归结为:与和选择之间是什么关系?首先,这解决了上面给出的双变量情况。q P (甲= 1 | X )β p qpppqqqP(A = 1 |X)P(一种=1|X)P(A=1|X)ββ\betapppqqq

1
偏最小二乘,减少秩回归和主成分回归之间有什么联系?
缩减秩回归和主成分回归只是偏最小二乘的特殊情况吗? 本教程(第6页,“目标比较”)指出,当我们在不投影X或Y的情况下进行偏最小二乘时(即“不偏”),相应地,它变成了降低秩回归或主成分回归。 在此SAS文档页面的 “降低的等级回归”和“方法之间的关系”部分中做出了类似的说明。 一个更基本的跟进问题是他们是否具有相似的潜在概率模型。



3
判别分析与逻辑回归
我发现了判别分析的一些优点,对此我也有疑问。所以: 当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。 如果特征数量少并且每个类别中的预测变量的分布 近似正态,则线性判别模型比逻辑回归模型更加稳定。XXX 什么是稳定性,为什么重要?(如果逻辑回归能够很好地完成工作,那么为什么我要关心稳定性?) 当我们有两个以上的响应类时,LDA很流行,因为它还提供了数据的低维视图。 我只是不明白。LDA如何提供低维视图? 如果您可以命名更多利弊,那将是很好的。

1
为什么“宽松套索”与标准套索不同?
如果我们开始与一组数据的,应用套索给它,将获得的溶液β 大号,我们可以再次应用套索到数据集(X 小号,ÿ ),其中小号是一组非零的指标β 大号,以得到溶液,β - [R 大号,被称为“放松套索”的解决方案(如果我错了指正!)。将溶液β 大号必须满足Karush-库恩-塔克(KKT)条件下对(X ,ÿ )(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y),但考虑的KKT条件的形式它是否也满足这些条件?如果是这样,第二次做LASSO有什么意义?(XS,Y)(XS,Y)(X_S, Y) 该问题是针对以下问题的后续措施: 做“双套索”或两次执行套索的优势?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.