Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。



5
与线性回归相比,为什么将ANOVA当作一种不同的研究方法来教授/使用?
使用适当的虚拟变量,ANOVA等效于线性回归。无论使用ANOVA还是线性回归,结论均保持不变。 鉴于它们的等效性,是否有任何理由使用ANOVA代替线性回归? 注意:我对了解使用ANOVA而不是线性回归的技术原因特别感兴趣。 编辑 这是一个使用单向方差分析的示例。假设您想知道男性和女性的平均身高是否相同。为了检验您的假设,您需要从男性和女性的随机样本(每个样本为30个)中收集数据,并进行ANOVA分析(即,性别和错误的平方和)来确定一种效应是否存在。 您还可以使用线性回归对此进行测试,如下所示: 定义: 如果受访者是男性,则否则为。 其中:Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} + \text{error} error∼N(0,σ2)error∼N(0,σ2)\text{error}\sim\mathcal N(0,\sigma^2) 然后检验是否等效于您的假设。β=0β=0\beta = 0
91 regression  anova 

11
线性回归何时应称为“机器学习”?
在最近的一次座谈会上,发言人的摘要声称他们正在使用机器学习。在谈话中,与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后,他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。 什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?(研究人员的摘要是否引起误解?) 机器学习近来引起了人们的广泛关注,因此做出这样的区分似乎很重要。 我的问题与此类似,只是该问题要求定义“线性回归”,而我的问题是何时将线性回归(具有广泛的应用)适当地称为“机器学习”。 澄清说明 我不是在问线性回归何时与机器学习相同。正如某些人指出的那样,单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时,是在说机器学习是正确的。 撇开所有笑话(见评论),我问这的原因之一是因为不道德地说一个人正在做机器学习,如果他们不是真正在做机器学习,那么就在您的名字上加一些金星。(许多科学家计算某些类型的工作最佳拟合线的,但这并不意味着他们正在做机器学习)。在另一方面,也有清楚的情况下,当线性回归被用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)

4
PCA和方差比例说明
通常,用第一个主成分来解释像PCA这样的分析中的方差分数是什么意思?有人可以直观地解释这一点,但也可以就主成分分析(PCA)给出“解释方差”的精确数学定义吗?XXx 对于简单的线性回归,总是将最佳拟合线的r平方描述为所解释的方差的比例,但我也不知道该怎么做。这里的方差比例是否只是点与最佳拟合线的偏差的延伸?

1
解释plot.lm()
我有一个关于解释R中plot(lm)生成的图的问题。我想知道你们是否可以告诉我如何解释比例位置图和杠杆剩余图?任何意见,将不胜感激。假设掌握统计,回归和计量经济学的基础知识。

9
有直观的解释为什么多重共线性是线性回归中的问题吗?
Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。 我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' XX′XX′XX' XX′XX′XX' X 关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?



8
最合适的线看起来不太合适。为什么?
看看这个Excel图: “常识”的最佳拟合线将是一条垂直于点中心的几乎垂直的线(用红色手工编辑)。但是,由Excel确定的线性趋势线是所示的对角黑色线。 为什么Excel产生了(在人眼中)看来是错误的东西? 如何生成看起来更直观的最佳拟合线(即类似红线的东西)? 更新1.此处提供带有数据和图形的Excel电子表格: 示例数据,Pastebin中的CSV。type1和type2回归技术可以用作excel函数吗? 更新2。数据表示滑翔伞在热中攀爬,随风漂移。最终目标是研究风的强度和方向如何随高度变化。我是工程师,而不是数学家或统计学家,因此这些回复中的信息为我提供了更多的研究领域。

5
“封闭式解决方案”是什么意思?
我经常碰到“封闭式解决方案”一词。封闭式解决方案是什么意思?如何确定一个给定问题的封闭式解决方案?在网上搜索时,我发现了一些信息,但是在开发统计或概率模型/解决方案的过程中却找不到任何信息。 我对回归非常了解,因此,如果任何人都可以参考回归或模型拟合来解释这一概念,那么它将很容易使用。:)


3
进行逻辑回归时,不平衡样本是否重要?
好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。 我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。 但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?


5
如何手动计算曲线下面积(AUC)或c统计量
我对手工计算二进制逻辑回归模型的曲线下面积(AUC)或c统计量感兴趣。 例如,在验证数据集中,我具有因变量的真实值(保留(1 =保留; 0 =不保留)),以及通过使用以下模型进行回归分析而生成的每个观察值的预测保留状态:使用训练集构建(范围从0到1)。 我最初的想法是确定模型分类的“正确”数目,然后将“正确”观察数除以总观察数即可计算出c统计量。通过“正确”,如果观察的真实保留状态= 1且预测的保留状态> 0.5,则为“正确”分类。另外,如果观察值的真实保留状态= 0并且预测的保留状态<0.5,则这也是“正确”的分类。我假设当预测值= 0.5时会出现“领带”,但在我的验证数据集中不会出现这种现象。另一方面,“不正确”分类将是观察的真实保留状态= 1且预测的保留状态<0。5或结果的真实保留状态= 0且预测的保留状态> 0.5。我知道TP,FP,FN,TN,但不知道在给定此信息的情况下如何计算c统计量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.