Questions tagged «multicollinearity»

预测变量之间存在很强的线性关系,从而它们的相关矩阵变为(几乎)奇异的情况。这种“疾病状况”使得很难确定每个预测变量所扮演的独特角色:出现估计问题,标准误差增加。双变量非常高的相关预测变量是多重共线性的一个例子。

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

1
可以使用线性回归中的标准化
我试图解释一篇文章的结果,他们运用多元回归来预测各种结果。但是的(定义为标准B系数,其中是从属变量且是预测变量)报告似乎与报告的不匹配:ββ\betaβx1=Bx1⋅SDx1SDyβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}yyyx1x1x_1R2R2R^2 尽管为-0.83,-0.29,-0.16,-0.43、0.25和-0.29,但报告的仅为0.20。ββ\betaR2R2R^2 同样,三个预测因子:体重,BMI和脂肪%是共线的,在性别内彼此相关,r = 0.8-0.9。 值是否适合这些,或者与之间没有直接关系?R2R2R^2ββ\betaββ\betaR2R2R^2 此外,多共线性预测变量的问题可能会影响第四个预测变量的(VO2max),它与上述三个变量在r = 0.4附近相关吗?ββ\beta

3
一组不相关但线性相关的变量
是否可以有一组不相关但线性相关的变量?KKK 即 和∑ K i = 1 a i x i = 0cor(xi,xj)=0cor(xi,xj)=0cor(x_i, x_j)=0∑Ki=1aixi=0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 如果可以,您可以写一个例子吗? 编辑:从答案中得出结论,这是不可能的。 至少有可能,其中是从变量样本,是与不相关的变量。ρ Ñ v X 我P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)\mathbb{P}(|\hat \rho_{x_i, x_j}-\hat \rho_{x_i, v}|<\epsilon)ρ^ρ^\hat\rhonnnvvvxixix_i 我在想类似ķ&gt;&gt;0xK=1K∑K−1i=1xixK=1K∑i=1K−1xix_K=\dfrac{1}{K} \sum_{i=1}^{K-1} x_i K&gt;&gt;0K&gt;&gt;0K>>0

1
交互项是否使用中心变量分层回归分析?我们应该集中哪些变量?
我正在运行分层回归分析,但我有一些疑问: 我们是否使用居中变量计算交互作用项? 除了因变量外,我们是否必须将数据集中所有连续变量居中? 当我们必须记录一些变量时(因为它们的sd远远高于平均值),我们是否应该将刚刚记录的变量或初始变量居中? 例如:变量“ Turnover” ---&gt;记录的成交量(因为sd相对于平均值而言过高)---&gt; Centered_Turnover? 或直接是营业额-&gt; Centered_Turnover(我们一起工作) 谢谢!!

3
在回归中添加更多变量且幅度更大时,符号翻转
基本设置: 回归模型: y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon 其中C是控制变量的向量。 我感兴趣的是 ββ\beta 并期待 β1β1\beta_1 和 β2β2\beta_2是负面的。但是,模型中存在多重共线性问题,相关系数由corr(x1x1x_1,x2)=x2)=x_2)= 0.9345,corr(x1x1x_1,x3)=x3)=x_3)= 0.1765,corr(x2x2x_2,x3)=x3)=x_3)= 0.3019。 所以 x1x1x_1 和 x2x2x_2是高度相关的,因此它们实际上应该提供相同的信息。我运行三个回归: 排除 x1x1x_1变量; 2.排除x2x2x_2变量; 3.两者兼有的原始模型x1x1x_1 和 x2x2x_2。 结果: 对于回归1和2,它提供了预期的符号β2β2\beta_2 和 β1β1\beta_1分别且幅度相似。和β2β2\beta_2 和 β1β1\beta_1 在对标准误差进行HAC校正后,两个模型中的均值在10%的水平上均显着。 β3β3\beta_3 在两个模型中均为正,但不显着。 但是3 β1β1\beta_1 具有预期的符号,但符号为 β2β2\beta_2 是正的,其幅度是其两倍 β1β1\beta_1绝对价值 而且两者β1β1\beta_1 和 β2β2\beta_2无关紧要。此外,β3β3\beta_3 与回归1和2相比减少了近一半。 我的问题是: 为什么在3中 β2β2\beta_2 变得积极并且远大于 …

1
缺少预测变量的多元回归
假设我们得到了以下形式的一组数据 (y,X1个,X2,⋯ ,Xñ)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 和 (y,X1个,X2,⋯ ,Xn − 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})。我们被赋予了预测的任务ÿyy 根据的值 Xxx。我们估计两个回归,其中: ÿÿ=F1个(X1个,⋯ ,Xn − 1,Xñ)=F2(X1个,⋯ ,Xn − 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我们还估计了一个回归,该回归预测了 Xñxnx_{n} 根据的值 (X1个,⋯ ,Xn − 1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), 那是: Xñ=F3(X1个,⋯ ,Xn − 1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} 假设现在给我们的值为 (X1个,⋯ ,Xn …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.