Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。


11
线性回归何时应称为“机器学习”?
在最近的一次座谈会上,发言人的摘要声称他们正在使用机器学习。在谈话中,与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后,他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。 什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?(研究人员的摘要是否引起误解?) 机器学习近来引起了人们的广泛关注,因此做出这样的区分似乎很重要。 我的问题与此类似,只是该问题要求定义“线性回归”,而我的问题是何时将线性回归(具有广泛的应用)适当地称为“机器学习”。 澄清说明 我不是在问线性回归何时与机器学习相同。正如某些人指出的那样,单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时,是在说机器学习是正确的。 撇开所有笑话(见评论),我问这的原因之一是因为不道德地说一个人正在做机器学习,如果他们不是真正在做机器学习,那么就在您的名字上加一些金星。(许多科学家计算某些类型的工作最佳拟合线的,但这并不意味着他们正在做机器学习)。在另一方面,也有清楚的情况下,当线性回归被用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)

12
关于线性回归最常见的误解是什么?
我很好奇,对于那些与其他研究人员合作有丰富经验的人,您遇到的关于线性回归的最常见误解是什么? 我认为这是一个有用的练习,可以提前考虑常见的误解,以便 预测人们的错误并能够成功阐明为什么某些误解是不正确的 如果我自己怀有一些误解,请意识到! 我能想到的几个基本原则: 自变量/因变量必须正态分布 变量必须标准化才能准确解释 还有其他吗? 欢迎所有答复。

2
R中的多元多元回归
我有2个因变量(DV),每个因变量的得分可能受7个独立变量(IV)的影响。DV是连续的,而IV则由连续变量和二进制编码变量组成。(在下面的代码中,连续变量用大写字母写,二进制变量用小写字母写。) 该研究的目的是揭示IV变量如何影响这些DV。我提出了以下多元多元回归(MMR)模型: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 为了解释结果,我调用两个语句: summary(manova(my.model)) Manova(my.model) 这两个调用的输出都粘贴在下面,并且有很大的不同。有人可以解释一下应该适当选择总结MMR结果的两种说法中的哪一种吗?为什么?任何建议将不胜感激。 使用using的输出summary(manova(my.model)): > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …

4
如何添加第二IV才能使第一IV重要?
我可能有一个简单的问题,但是现在让我感到困惑,所以希望您能帮助我。 我有一个最小二乘回归模型,其中有一个自变量和一个因变量。关系并不重要。现在,我添加第二个自变量。现在,第一个自变量和因变量之间的关系变得很重要。 这是如何运作的?这可能表明我的理解存在一些问题,但是对我而言,但我看不到添加第二个独立变量如何使第一个有意义。


9
在一个经常由外行进行分析的时代,我们是否夸大了模型假设和评估的重要性?
底线是,我对统计知识了解的越多,对本领域发表的论文的信任就越低;我只是认为研究人员的统计数据不够好。 我是一个外行,可以这么说。我接受了生物学方面的培训,但没有接受过统计学或数学方面的正规教育。我喜欢R,并且经常努力阅读(并理解...)进行研究时所用方法的一些理论基础。如果今天进行分析的大多数人实际上没有经过正式培训,这也不会令我感到惊讶。我发表了大约20篇原始论文,其中一些已被知名期刊所接受,而统计学家经常参与到审阅过程中。我的分析通常包括生存分析,线性回归,逻辑回归,混合模型。审阅者从未询问过模型假设,拟合或评估。 因此,我从未真正对模型假设,拟合和评估感到困扰。我从一个假设开始,执行回归,然后给出结果。在某些情况下,我努力评估了这些情况,但最终我总是以“ 好吧,它并不能满足所有假设,但是我相信结果(“主题知识”),并且它们是合理的,所以很好 ”和在咨询统计学家时,他们似乎总是同意。 现在,我已经与其他自己进行分析的统计学家和非统计学家(化学家,医师和生物学家)进行了交谈。似乎人们对所有这些假设和正式评估并没有太在意。但是在简历上,有很多人在询问残差,模型拟合,评估残差的方法,特征值,向量,等等。让我这样说,当lme4警告大型特征值时,我真的怀疑它的许多用户是否在意解决这个问题。 值得付出额外的努力吗?是否所有发表的结果中的大多数都不遵守这些假设,甚至可能没有对它们进行评估?这可能是一个日益严重的问题,因为数据库每天都在增长,并且有一种观念认为,数据越大,假设和评估就越不重要。 我可能是完全错误的,但这就是我对此的看法。 更新: 引自StasK的引用(如下):http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

5
在多元回归中为多个比较调整p值是一个好主意吗?
假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。 我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。



3
在多元回归模型中具有相关的预测变量有什么影响?
我在线性模型课程中了解到,如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个预测变量将是不重要的。例如,假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时,可以放弃其中一个,因为它们都提供了大量相同的信息。从直觉上讲,这是有道理的,但是我还有一些技术问题: 当仅在模型中包含一个或两个预测变量时,这种影响如何在回归系数的p值中体现出来? 通过在模型中包括两个预测变量或仅包含一个预测变量,如何影响回归系数的方差? 我怎么知道模型将选择不太重要的预测变量? 仅包含一个或两个预测变量如何改变我的预测成本的价值/差异?

2
多元回归如何真正“控制”协变量?
我们都熟悉观察性研究,这些研究试图通过在多元回归模型中包含所有可能的潜在混杂因素,在非随机预测变量X和结果之间建立因果关系。该论点认为,通过“控制”所有混杂因素,我们可以分离出感兴趣的预测变量的影响。 我对这个想法越来越感到不适,主要是根据我的统计课程的各个教授的副言。它们分为几个主要类别: 1.您只能控制您认为和测量的协变量。 这是显而易见的,但是我想知道它是否真的是所有最有害和不可克服的。 2.这种做法在过去导致了丑陋的错误。 例如,Petitti&Freedman(2005)讨论了数十年经过统计学调整的观察性研究如何得出关于激素替代疗法对心脏病风险的影响的灾难性错误结论。后来的RCT发现了几乎相反的效果。 3.当您控制协变量时,预测结果与结果之间的关系可能会表现得很奇怪。 Tu Yu-Kang Tu,Gunnell和Gilthorpe(2008) 讨论了一些不同的表现形式,包括Lord悖论,Simpson悖论和抑制变量。 4.单一模型(多元回归)很难充分调整协变量并同时对预测结果关系建模。 我听说这是因为倾向得分和对混杂因素进行分层等方法具有优越性的原因,但是我不确定我是否真的理解。 5. ANCOVA模型要求相关的协变量和预测变量是独立的。 当然,我们会精确地调整混杂因素,因为它们与感兴趣的预测因素相关联,因此,看起来该模型在我们最想要的确切实例中不会成功。有观点认为,调整仅适用于随机试验中的降噪。Miller&Chapman,2001年作了很好的评论。 所以我的问题是: 这些问题和我可能不知道的其他问题有多严重? 当我看到一项研究“控制一切”时,我应该有多害怕? (我希望这个问题不会在讨论中冒出太大的麻烦,并乐意邀请任何改进它的建议。) 编辑:我找到新参考文献后添加了第5点。


3
如何使用glmnet呈现套索的结果?
我想从30个独立变量中找到连续因变量的预测变量。我正在使用在R 中的glmnet包中实现的Lasso回归。这是一些伪代码: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.