Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

4
在模型中添加二次项而不是线性项是否有意义?
我有一个(混合)模型,其中我的一个预测变量应该与该预测变量呈二次相关关系(由于实验操作)。因此,我只想将二次项添加到模型中。有两件事使我无法这样做: 我想我读过一些话,在拟合高阶多项式时,应始终包含低阶多项式。我忘了在哪里找到它,在我看过的文献中(例如Faraway,2002; Fox,2002),我找不到很好的解释。 当我同时添加线性和二次项时,两者都是有意义的。当我仅添加其中一个时,它们并不重要。但是,预测变量和数据之间的线性关系无法解释。 我的问题的上下文具体是使用的混合模型lme4,但是我想获得可以解释为什么是这样的答案,或者为什么不包括高阶多项式而不是低阶多项式的原因。 如有必要,我可以提供数据。

2
贝叶斯回归:与标准回归相比,该如何做?
我对贝叶斯回归有一些疑问: 给定标准回归为。如果我想将其更改为贝叶斯回归,我是否需要同时为和(或者这样行不通)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 在标准回归中,将尝试最小化残差以获得和单个值。在贝叶斯回归中如何完成?β0β0\beta_0β1β1\beta_1 我在这里真的很努力: posterior=prior×likelihoodposterior=prior×likelihood \text{posterior} = \text{prior} \times \text{likelihood} 可能性来自当前数据集(所以这是我的回归参数,但不是单个值而是可能性分布,对吗?)。先验来自先前的研究(假设)。所以我得到了这个等式: y=β1x+εy=β1x+ε y = \beta_1 x + \varepsilon 与是我的可能性或后(或者这只是完全错误的)? β1β1\beta_1 我简直不明白标准回归如何转换成贝叶斯回归。

1
R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?
我正在尝试使用50个连续的解释变量来预测二进制结果(大多数变量的范围是到)。我的数据集几乎有24,000行。当我在R中运行时,我得到:∞−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 我已阅读过其他建议,可能会发生完美分离,但我确信数据中并非如此(尽管存在准完全分离;如何测试情况是否如此?) 。如果删除一些变量,则“不收敛”错误可能会消失。但这并不总是会发生。 我尝试在bayesglm函数中使用相同的变量,并得到相同的错误。 您将采取什么步骤来弄清楚这里到底发生了什么?您如何找出导致问题的变量?


2
关于变量选择的更明确的讨论
背景 我正在从事医学临床研究,并参加了一些统计学课程。我从未发表过使用线性/逻辑回归的论文,而是想正确地进行变量选择。可解释性很重要,因此没有花哨的机器学习技术。我总结了我对变量选择的理解-有人介意消除任何误解吗?我发现有两(1)个与此(2 )类似的简历,但他们并未完全回答我的担忧。任何想法将不胜感激!最后我有3个主要问题。 问题与讨论 我的典型回归/分类问题有200-300个观察值,不良事件发生率为15%(如果分类),以及40个变量中的25个的信息,这些变量在文献中被认为具有“统计学上的显着”效果或具有说服力。领域知识。 我用引号表示“具有统计意义”,因为似乎每个人及其母亲都使用逐步回归,但是出于许多充分的理由,Harrell(3)和Flom(4)似乎并不喜欢它。Gelman博客文章讨论进一步支持了这一点(5)。似乎唯一可以接受的实时步骤是真正的探索性分析,或者是对预测感兴趣并且涉及交叉验证方案。尤其是由于许多医学上的合并症都存在共线性,而研究的样本量却很小,所以我的理解是,文献中会出现很多假阳性。这也使我不太可能相信文献中可能包含的变量。 另一种流行的方法是使用预测变量和自变量之间的一系列单变量回归/关联作为起点。低于特定阈值(例如,p <0.2)。由于本StackExchange帖子(6)中概述的原因,这似乎不正确或至少具有误导性。 最后,一种在机器学习中流行的自动化方法是使用惩罚,例如L1(Lasso),L2(Ridge)或L1 + L2组合(Elastic Net)。我的理解是,它们没有像OLS或逻辑回归那样简单的解释。 Gelman + Hill提出以下建议: 在统计课程中,我还记得使用F检验或“偏差分析”来比较完整模型和嵌套模型,以逐个变量地进行模型/变量选择。这似乎是合理的,但系统地拟合顺序嵌套模型以查找导致每df偏差最大下降的变量似乎很容易实现自动化(因此我有点担心),而且似乎还遇到了以下问题:您测试变量包含。我的理解是,还应该通过研究多重共线性和残差图(残差图与预测图)来补充这一点。 问题: 盖尔曼摘要是要走的路吗?您会在他的拟议策略中增加或改变什么? 除了纯粹考虑潜在的交互作用和转换(似乎很容易产生偏见/错误/遗漏)之外,还有另一种方法来发现潜在的交互作用和转变吗?向我推荐了多变量自适应回归样条(MARS),但我得知非线性/变换在标准回归模型中不会转化为相同的变量。 假设我的目标非常简单:说:“我想估计X1与Y的关联,仅考虑X2”。简单地使Y〜X1 + X2回归,报告结果,而不参考实际的预测能力是否足够(可以通过交叉验证RMSE或准确性度量来测量)是否足够?是否会根据事件发生率或样本大小或R ^ 2是否过低而改变(我知道R ^ 2不好,因为您总是可以通过过度拟合来增加它)?通常,我对推理/可解释性比优化预测能力更感兴趣。 结论示例: “控制X2,相对于X1的参考水平,X1与Y在统计上没有显着相关。” (逻辑回归系数) “ X1并不是Y的统计显着预测因子,因为在模型中相对于df的变化,偏差的下降还不够。” (偏差分析) 是否总是需要交叉验证?在这种情况下,可能还需要通过SMOTE,采样等对类进行某种平衡。

6
R中逻辑回归的替代方法
我想要执行与逻辑回归相同任务的许多算法。也就是说,可以使用一些解释变量(X)预测二进制响应(Y)的算法/模型。 如果为算法命名后,如果您还演示如何在R中实现它,我将非常高兴。这是一个可以用其他模型更新的代码: set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

5
在多元回归中为多个比较调整p值是一个好主意吗?
假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。 我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。



6
高效的在线线性回归
我正在分析一些我想执行普通线性回归的数据,但是这是不可能的,因为我正在处理具有连续输入数据流的在线设置(这将很快对于内存变得太大)并且需要消耗参数时更新参数估算值。即我不能只将其全部加载到内存中并对整个数据集执行线性回归。 我假设一个简单的线性多元回归模型,即 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 创建线性回归参数和的连续更新估计的最佳算法是什么?b一种A\mathbf Abb\mathbf b 理想情况下: 我想要一种算法,每次更新的空间为,时间复杂度最高,其中是自变量()的维数,是因变量()。ñ X中号ÿø(Ñ⋅ 中号)O(N⋅M)\mathcal O(N\cdot M)ñNNXx\mathbf x中号MMÿy\mathbf y 我希望能够指定一些参数来确定每个新样本更新多少参数,例如0.000001表示下一个样本将提供参数估计的百万分之一。对于遥远的过去样本,这将产生某种指数衰减。


3
为什么我们在不必线性回归时非常关心正态分布误差项(和同方差)?
我想每次听到有人说残差和/或异方差的非正态性违反OLS假设时,我都会感到沮丧。要估计 OLS模型中的参数,高斯-马尔可夫定理都不需要这些假设。我认为在OLS模型的假设检验中这有多重要,因为假设这些事情为我们提供了t检验,F检验和更通用的Wald统计量的简洁公式。 但是,没有它们就可以进行假设检验。如果仅去除同方差,我们可以轻松计算出健壮的标准误差和聚类标准误差。如果我们完全放弃正态性,我们可以使用自举,并为误差项,似然比和拉格朗日乘数检验指定另一个参数规范。 我们以这种方式进行授课只是一种耻辱,因为我看到很多人都在为自己不必首先遇到的假设而苦苦挣扎。 当我们有能力轻松应用更强大的技术时,为什么我们如此强调这些假设?我缺少重要的东西吗?




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.