Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
常用统计检验为线性模型
(更新:我对此进行了更深入的研究,并将结果发布在此处) 命名统计测试的列表非常庞大。许多常见检验依赖于简单线性模型的推论,例如,单样本t检验只是y =β+ε,它是针对零模型y =μ+ε进行检验的,即β=μ,其中μ为零值-通常为μ= 0。 我发现这对教学目的比死记硬背地学习命名模型,何时使用它们以及它们的假设好像它们之间没有任何关系相比更具启发性。这种方法促进并不能增进理解。但是,我找不到一个很好的资源来收集这些信息。我对基本模型之间的等效性感兴趣,而不是对它们的推断方法感兴趣。尽管据我所知,所有这些线性模型的似然比检验得出的结果与“经典”推论相同。 下面是我已经了解迄今为止等价,忽略误差项ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2),并假设所有零假设是的效果由于缺少: 单样本t检验: y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0。 配对样本t检验: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 这与成对差异的一样本t检验相同。 两样本t检验: y=β1∗xi+β0H0:β1=0y=β1∗xi+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0 其中x是指标(0或1)。 Pearson相关: y=β1∗x+β0H0:β1=0y=β1∗x+β0H0:β1=0y = \beta_1 * x …

3
回归误差项如何与解释变量相关联?
此第一句维基页权利要求书,“在计量经济学,当说明变量与误差项相关发生内生性问题。1 ” 我的问题是,这怎么可能发生?是否不选择回归beta以使误差项与设计矩阵的列空间正交?
22 regression 

9
如何确定神经网络预测的置信度?
为了说明我的问题,例如,假设我有一个训练集,其中输入具有一定程度的噪声,但输出却没有噪声。 # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] 如果无噪声(不是实际的梯度),那么这里的输出就是输入数组的梯度。 训练网络后,对于给定的输入,输出应类似于以下内容。 # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] : 95% …

2
您如何找到加权最小二乘回归的权重?
在WLS回归过程中,我有些失落。我已经获得了数据集,我的任务是测试是否存在异方差性,如果可以,我应该运行WLS回归。 我进行了测试,并发现了异方差的证据,因此我需要运行WLS。有人告诉我WLS基本上是转换模型的OLS回归,但是我对找到转换函数有些困惑。我读过一些文章,建议转换可以是OLS回归的残差平方的函数,但是如果有人可以帮助我走上正确的道路,我将不胜感激。

3
理解辛普森的悖论:安德鲁·盖尔曼(Andrew Gelman)的性别和身高收入递减示例
安德鲁·盖尔曼(Andrew Gelman)在他最近的一篇博客文章中说: 我认为反事实或潜在的结果对于辛普森悖论没有必要。我之所以这样说,是因为人们可以用无法操纵的变量设置辛普森悖论,或者不能直接对其进行操纵。 辛普森悖论是一个更普遍的问题的一部分,如果您添加更多的预测变量,回归系数会改变,但实际上没有必要翻转符号。 这是我在教学中使用的示例,说明了这两点: 我可以进行回归分析,以预测来自性别和身高的收入。我发现性别的系数为 10,000 美元(即,比较一个身高相同的男人和女人,平均而言,这个男人会多赚10,000 美元),而身高系数为 500 美元(即,比较两个男人或两个女人不同高度的平均高大的人会使$ 500多家每高度英寸)。 我如何解释这些系数?我觉得身高系数很容易解释(很容易想象将两个相同性别的不同身高的人进行比较),的确,在不控制性别的情况下,身高回归似乎有些“错误” 身材矮小的人之间的差异可以通过男女之间的差异来“解释”。但是上述模型中的性别系数似乎很难解释:例如,为什么要比较一个身高66英寸的男人和一个女人?那将是一个矮个子男人和一个高个子女人的比较。所有这些推理似乎都是模糊的因果关系,但我认为使用潜在的结果来思考它是没有道理的。 我仔细考虑了一下(甚至在帖子中发表了评论),并认为这里有些事情需要更清楚地理解。 在解释性别之前,还可以。但我看不出比较矮个子和个高个子的女人背后的问题是什么。这是我的观点:实际上,这更有意义(假设男人的平均身高更高)。出于完全相同的原因,您不能比较“矮个子男人”和“矮个子女人”,即收入差异在某种程度上由身高差异来解释。高个子男人和高个子女人也是如此,矮个子女人和高个子男人更是如此(可以这么说)。因此,基本上只有在比较矮个子和高个子的情况下才消除身高的影响(这有助于解释性别系数)。难道不是流行的匹配模型背后的类似基础概念的钟声吗? 辛普森悖论背后的想法是,人口效应可能与亚群体效应不同。从某种意义上说,这与他的观点2和他承认不应单独控制身高(我们所说的是忽略变量偏差)有关。但是我不能将其与关于性别系数的争论联系起来。 也许您可以更清楚地表达它?或评论我的理解?

2
回归中的Wald检验(OLS和GLM):t分布与z分布
我了解Wald回归系数检验基于渐近成立的以下属性(例如Wasserman(2006):All Statistics,第153、214-215页): 其中表示估计的回归系数,\ widehat {\ operatorname {se}}(\ hat {\ beta})表示回归系数的标准误差,\ beta_ {0}是相关值(\ beta_ {0}通常为0,以测试系数是否为与0明显不同)。这样大小\阿尔法 Wald检验是:拒绝H_ {0}时(β^- β0)SEˆ(β^)〜ñ(0 ,1 )(β^-β0)SE^(β^)〜ñ(0,1个) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ(β^)SE^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| w ^| > zα / 2|w ^|>žα/2|W|> z_{\alpha/2},其中 w ^= β^SEˆ(β^)。w ^=β^SE^(β^)。 W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. 但是,当您使用lmR 进行线性回归时,将使用ŤŤt值而不是žžz值来测试回归系数是否显着不同于0(带有summary.lm)。此外,glmR中的输出有时会给出žžz,有时会给出ŤŤt作为测试统计量。显然,假设色散参数已知时使用z值,而模拟色散参数则使用t值(请参阅此链接)。žžzŤŤt 有人可以解释一下,为什么即使系数和其标准误的比率被假定为标准正态分布,但有时还是将ŤŤt用于Wald检验? 回答问题后进行编辑 这篇文章还为问题提供了有用的信息。

3
为什么Lars和Glmnet为Lasso问题提供不同的解决方案?
我想更好地理解R封装Lars和Glmnet,这是用来解决问题的套索: (有关变量和样本,请参见第3页的www.stanford.edu/~hastie/Papers/glmnet.pdf)米我Ñ( β0β)∈ [Rp + 1[ 12 N∑我= 1ñ( y一世- β0- xŤ一世β)2+ λ | |β| |升1个]米一世ñ(β0β)∈[Rp+1个[1个2ñ∑一世=1个ñ(ÿ一世-β0-X一世Ťβ)2+λ||β||升1个]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppññN 因此,我将它们都应用于相同的玩具数据集。不幸的是,对于相同的数据输入,这两种方法不能提供相同的解决方案。有人知道差异的来源吗? 我得到的结果如下:生成一些数据(8个样本,12个特征,Toeplitz设计,所有内容都居中)之后,我使用Lars计算了整个套索路径。然后,我使用由Lars计算的lambda序列(乘以0.5)运行Glmnet,希望获得相同的解决方案,但我没有。 可以看到解决方案是相似的。但是我如何解释这些差异?请在下面找到我的代码。这里有一个相关的问题:用于计算LASSO解决方案的GLMNET或LARS?,但没有包含我的问题的答案。 设定: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 nb.lambdas …

5
回归中不平衡数据的采样
关于在分类环境中处理不平衡数据一直存在很好的问题,但是我想知道人们如何做抽样以进行回归。 假设问题域对符号非常敏感,但对目标的大小仅敏感一些​​。但是,数量级非常重要,以至于模型应该是回归(连续目标)而不是分类(正与负分类)。并说在此问题域中,任何训练数据集的负面结果都比正面目标多10倍。 在这种情况下,我可能会对正目标示例进行过度采样以匹配负目标示例的数量,然后训练一个模型来区分这两种情况。显然,训练方法对不平衡数据的处理效果很差,因此我需要进行某种采样。在做出预测时,有什么体面的方法可以“撤消”这种过采样?也许用自然训练数据目标的(负)均值或中值进行翻译?

5
原始或正交多项式回归?
我想将变量回归yyy到。我应该使用原始多项式还是正交多项式?我在处理这些问题的网站上看了一个问题,但我真的不明白使用它们有什么区别。 x,x2,…,x5x,x2,…,x5x,x^2,\ldots,x^5 为什么我不能只是做一个“正常”的回归得到的系数的βiβi\beta_iy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i(与p值和所有其他不错的东西一起),而是不必担心使用原始多项式还是正交多项式?在我看来,这种选择超出了我想要做的事情的范围。 在我目前正在阅读的统计书中(Tibshirani等人的ISLR)中没有提到这些东西。其实,他们在某种程度上被淡化。 原因是AFAIK,lm()在R 中的函数中,使用y ~ poly(x, 2)等于使用正交多项式,而使用y ~ x + I(x^2)等于使用原始多项式。但是在第116页上,作者说我们使用第一个选项,因为后者是“麻烦的”,它没有迹象表明这些命令实际上对完全不同的事物(因此具有不同的输出)。 (第三个问题)为什么会ISLR的作者混淆读者这样呢?

1
使用单热编码时删除列之一
我的理解是,如果您的数据集具有高度相关的特征,则在机器学习中可能会出现问题,因为它们有效地编码了相同的信息。 最近有人指出,当对分类变量进行单次编码时,最终会具有相关功能,因此应删除其中一个作为“参考”。 例如,将性别编码为两个变量is_male和is_female会产生两个完全负相关的特征,因此他们建议仅使用其中一个,有效地将基线设置为男性,然后查看is_female列在预测算法中是否重要。 这对我来说很有意义,但是我没有在网上找到任何东西来暗示可能是这种情况,所以这是错误的还是我遗漏了一些东西? 可能的(未回答的)重复项:一键编码特征的共线性对SVM和LogReg是否重要?

4
相关性假设与显着性回归斜率检验之间的假设差异
我的问题来自与@whuber的讨论,涉及另一个问题的评论。 具体来说,@ whuber的评论如下: 您可能会感到惊讶的一个原因是,相关检验和回归斜率检验所基于的假设是不同的,因此,即使我们了解到相关性和斜率确实在衡量同一事物,为什么它们的p值也应该相同?这表明,与简单地确定和在数值上是否相等相比,这些问题要深得多。β[R[Rrββ\beta 这引起了我的思考,我遇到了许多有趣的答案。例如,我发现了这个问题“ 相关系数的假设 ”,但是看不到如何澄清上面的评论。 我在简单的线性回归中找到了有关Pearson的和斜率的关系的更有趣的答案(例如,请参见此处和此处),但它们似乎都没有回答@whuber在他的评论中所指的内容(至少不明显)。对我来说)。β[R[Rrββ\beta 问题1:相关性检验和回归斜率检验的假设是什么? 对于我的第二个问题,请考虑以下输出R: model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.3807 4.4224 1.895 …

1
具有相同方框和晶须图的类似Anscombe的数据集(平均值/标准差/中位数/ MAD /最小值/最大值)
编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。 Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yXxxÿyyXxxÿyyℓ 2[R2R2R^2ℓ2ℓ2\ell_2 编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X XÿyyXxxXxxXxx 因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:ℓ 1ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1 顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下! 在出于类似于Anscombe四重奏的目的而构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。 我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外ℓ2ℓ2\ell_2: 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿXxxÿyy 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),ℓ1个ℓ1\ell_1 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。ℓ∞ℓ∞\ell_\infty 这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。 如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价: 计算的目的是洞察力,而不是数字 编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。 在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。(x ,y)(x,y)(x,y) 和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存,ℓ 1和ℓ ∞统计。ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

2
为不平衡数据的逻辑回归增加权重
我想用不平衡的数据(9:1)对逻辑回归建模。我想尝试glmR函数中的weights选项,但是我不确定100%会做什么。 可以说我的输出变量是c(0,0,0,0,0,0,0,0,0,1)。现在我想给“ 1”增加10倍的重量。所以我给出权重的论点weights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 当我这样做时,将在最大似然计算中考虑它。我对吗?错误分类“ 1”比错误分类“ 0”仅差10倍。

2
为什么为了估计回归线,残差的正态“根本不重要”?
Gelman and Hill(2006)在第46页上写道: 通常最不重要的回归假设是误差呈正态分布。实际上,出于估计回归线的目的(与预测单个数据点相比),假设正态性一点也不重要。因此,与许多回归教科书相比,我们不建议对回归残差的正态性进行诊断。 盖尔曼和希尔似乎没有进一步解释这一点。 盖尔曼和希尔正确吗?如果是这样,则: 为什么“根本不重要”?为什么既不重要也不完全不相关? 为什么在预测单个数据点时残差的正态性很重要? Gelman,A.,&Hill,J.(2006)。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.