Questions tagged «multicollinearity»

预测变量之间存在很强的线性关系,从而它们的相关矩阵变为(几乎)奇异的情况。这种“疾病状况”使得很难确定每个预测变量所扮演的独特角色:出现估计问题,标准误差增加。双变量非常高的相关预测变量是多重共线性的一个例子。

3
如何在Python中系统地删除共线变量?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 到目前为止,我已经通过查看相关表并消除了超过某个阈值的变量,来删除了共线变量作为数据准备过程的一部分。有一种更可接受的方式吗?此外,我知道一次只查看两个变量之间的相关性并不理想,像VIF这样的测量考虑了多个变量之间的潜在相关性。如何系统地选择不表现出多重共线性的变量组合? 我将数据存储在熊猫数据框中,并且正在使用sklearn的模型。

2
回归中的定性变量编码导致“奇异”
我有一个称为“质量”的自变量;此变量具有3种响应方式(质量差;质量中等;质量高)。我想将此自变量引入我的多元线性回归中。当我有一个二进制自变量(虚拟变量,我可以编写代码0/ 1)时,很容易将其引入多元线性回归模型。 但是,通过3种响应方式,我尝试像下面这样编写此变量: Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 但是当我尝试进行多元线性回归时存在一个问题:模态Medium quality给我NA: Coefficients: (1 not defined because of singularities) 如何使用3种方式对变量“质量”进行编码?我是否必须创建一个变量作为因子(factorin R),但是可以在多元线性回归中引入该因子吗?

1
Logistic回归-多共线性问题/陷阱
在Logistic回归中,是否需要像在直接进行OLS回归中一样关注多重共线性? 例如,对于存在多重共线性的逻辑回归,是否需要谨慎(就像在OLS回归中一样),要从Beta系数中得出推断? 对于OLS回归,高多重共线性的一个“解决方案”是岭回归,是否有类似的逻辑回归?另外,删除变量或组合变量。 在逻辑回归中减少多重共线性影响的合理方法是什么?它们与OLS本质上相同吗? (注意:这并非旨在进行设计的实验)

3
我们什么时候可以说共线性
在线性模型中,我们需要检查解释变量之间是否存在关系。如果它们之间的相关性太大,则存在共线性(即,变量在某种程度上相互解释)。我目前仅查看每个解释变量之间的成对相关性。 问题1: 什么被归类为太多的相关性?例如,皮尔逊相关系数是否为0.5? 问题2: 我们是否可以根据相关系数完全确定两个变量之间是否存在共线性,或者它是否取决于其他因素? 问题3: 对两个变量的散点图进行图形检查是否会增加相关系数指示的内容?

1
尽管一个变量是其他变量的线性组合,但是为什么这种回归不会由于完美的多重共线性而失败?
今天,我正在研究一个小的数据集,并执行了一个简单的OLS回归,由于完美的多重共线性,我预计会失败。但是,事实并非如此。这意味着我对多重共线性的理解是错误的。 我的问题是:我哪里错了? 我认为我可以证明我的一个变量是其他变量的线性组合。这将导致没有完整等级的回归矩阵,因此不应识别系数。 我生成了一个小的可复制数据集(下面的代码): exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida Florida 1007.5589 6.779686 1 7 Texas Florida 996.8938 1.570600 …

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
VIF,条件索引和特征值
我目前正在评估数据集中的多重共线性。 以下/上方的VIF和条件指数的阈值表示什么问题? VIF: 我听说VIF 是一个问题。≥ 10≥10\geq 10 除去两个问题变量后,VIF是为每个变量。变量是否需要更多处理,或者这个VIF看起来还好吗?≤ 3.96≤3.96\leq 3.96 条件指数: 我听说条件指数(CI)为30或更大是一个问题。我的最高CI为16.66。这有问题吗? 其他问题: 还有其他需要考虑的事项吗? 还有其他需要记住的事情吗?

1
为什么在多重共线性的情况下Ridge回归能很好地工作?
我正在学习有关岭回归的知识,并且知道在存在多重共线性的情况下,岭回归往往会更好地工作。我想知道为什么这是真的吗?直观的答案或数学的答案都将令人满意(两种类型的答案都将更加令人满意)。 我也知道 β^β^\hat{\beta} 总是可以得到的,但是在存在精确共线性的情况下(一个独立变量是另一个的线性函数),岭回归的效果如何?

3
运行kmeans之前是否需要删除相关/共线性的变量?
我正在运行kmeans以识别客户群。我大约有100个变量来识别集群。这些变量中的每一个都代表客户在类别上花费的百分比。因此,如果我有100个类别,则我拥有这100个变量,这样每个客户的这些变量之和为100%。现在,这些变量彼此之间具有很强的相关性。在运行kmeans之前,是否需要删除其中一些以消除共线性? 这是示例数据。实际上,我有100个变量和1000万个客户。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%


2
线性回归时,你只知道
假设。Xβ=YXβ=YX\beta =Y 我们地知道,只知道它与每个预测变量。YYYXtYXtYX^\mathrm{t}Y 普通的最小二乘(OLS)解决方案是,这没有问题。β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y 但是,假设接近奇异(多重共线性),那么您需要估计最佳的岭参数。所有方法似乎都需要的确切值。XtXXtXX^\mathrm{t}XYYY 当仅知道时,是否有其他方法?XtYXtYX^\mathrm{t}Y

2
什么是组块测试?
在回答存在多重共线性的模型选择问题时,Frank Harrell 建议: 将所有变量放入模型中,但不测试针对竞争变量的影响而调整的一个变量的影响...竞争变量的块测试功能强大,因为共线性变量在整体多自由度关联测试中共同作用,而不是当您分别测试变量时,彼此竞争。 什么是块测试?你能举一个例子说明他们的应用r吗?

6
个体回归显着但VIF较低时的多重共线性
我有6个变量(),我使用预测ÿ。在执行数据分析时,我首先尝试了多元线性回归。因此,只有两个变量是重要的。但是,当我进行线性回归将每个变量分别与y进行比较时,除一个变量外,其他所有变量都是显着的(p范围从小于0.01到小于0.001)。有人认为这是由于多重共线性。X1个。。。X6x1...x6x_{1}...x_{6}ÿyyÿyyppp 我对此的初步研究建议使用VIF检查多重共线性。我从R下载了适当的软件包,并最终得到了VIF:3.35、3.59、2.64、2.24和5.56。根据在线上的各种消息来源,您应该担心与VIF的多重共线性是4还是5。 我现在对这对我的数据意味着什么感到困惑。我还是没有多重共线性问题?如果这样做,该如何进行?(我无法收集更多数据,并且变量是模型中没有明显关联的部分)如果我没有这个问题,那我应该从我的数据中获取什么,尤其是这些变量具有很高的意义单独,但组合起来根本不重要。 编辑:有关数据集的一些问题,所以我想扩展... 在这种特殊情况下,我们希望了解特定的社交提示(手势,凝视等)如何影响某人产生其他提示的可能性。我们希望我们的模型包括所有重要的属性,因此我不愿意删除一些似乎多余的属性。 目前没有任何假设。相反,这个问题尚未研究,我们正在寻求对哪些属性很重要的更好的理解。据我所知,这些属性应该彼此相对独立(您不能只说凝视和手势相同,或者是另一个子集)。能够报告所有结果的p值将是一件很高兴的事情,因为我们希望其他研究人员能够了解所研究的内容。 编辑2:由于它出现在下面的某处,所以我的是24。ñnn

3
如何在具有高多重共线性的线性回归中处理不稳定的
具有高多重共线性的线性回归中的Beta稳定性? 假设在线性回归中,变量和x 2具有较高的多重共线性(相关系数约为0.9)。X1个x1x_1X2x2x_2 我们担心系数的稳定性,因此我们必须处理多重共线性。ββ\beta 教科书的解决方案是只丢弃一个变量。 但是我们不想仅仅丢弃变量就失去有用的信息。 有什么建议?

2
处理多重共线性
我了解到,使用封装vif()方法car,我们可以计算模型中输入的多重共线性度。从维基百科来看,如果该vif值大于,5那么我们可以认为输入存在多重共线性问题。例如,我使用lm()方法开发了线性回归模型,并vif()给出了以下内容。正如我们所看到的,输入ub,lb以及tb由多重痛苦。 vif(lrmodel) tb ub lb ma ua mb sa sb 7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946 为了避免多重共线性问题,并使模型更健壮,我ub和之间进行了交互lb,现在新模型的vif表如下: tb ub:lb ma mb sa sb ua 1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218 有中没有太大区别R^2价值和以及有在上述两种情况都在误差没有太大的差别,从一留出CV测试。 我的问题是: 如上所示,通过交互来避免多重共线性问题是否还好? 与上述vif方法结果相比,有没有更好的方法来表示多重共线性问题。 请给我您的建议。 谢谢。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.