Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。



1
回归系数的抽样分布
之前,我了解了采样分布,这些分布根据未知参数给出了供估计器使用的结果。例如,对于线性回归模型中和的采样分布β^0β^0\hat\beta_0β^1β^1\hat\beta_1Yi=βo+β1Xi+εiYi=βo+β1Xi+εiY_i = \beta_o + \beta_1 X_i + \varepsilon_i β^0∼N(β0, σ2(1n+x¯2Sxx))β^0∼N(β0, σ2(1n+x¯2Sxx)) \hat{\beta}_0 \sim \mathcal N \left(\beta_0,~\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)\right) 和 β^1∼N(β1, σ2Sxx)β^1∼N(β1, σ2Sxx) \hat{\beta}_1 \sim \mathcal N \left(\beta_1,~\frac{\sigma^2}{S_{xx}}\right) 其中Sxx=∑ni=1(x2i)−nx¯2Sxx=∑i=1n(xi2)−nx¯2S_{xx} = \sum_{i=1}^n (x_i^2) -n \bar{x}^2 但是现在我在书中看到了以下内容: 假设我们以通常的方式用最小二乘法拟合模型。考虑贝叶斯后验分布,并选择先验,这样就等于通常的常客抽样分布,即…… (β0β1)∼N2[(β^1β^2), σ^2(n∑ni=1xi∑ni=1xi∑ni=1x2i)−1](β0β1)∼N2[(β^1β^2), σ^2(n∑i=1nxi∑i=1nxi∑i=1nxi2)−1] \left( \begin{matrix} \beta_0 \\ \beta_1 \end{matrix} \right) \sim \mathcal N_2\left[\left(\begin{matrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{matrix} …

2
泊松回归如何可视化?
我想将代码缺陷与代​​码复杂性指标(如紧密度)相关联。一种常见的模型是将其视为泊松过程,其中持续时间是编码花费的时间,而密度是编码复杂度的函数。我能够进行回归并获得显着性值等。 但是,对我而言,很难直观地看到结果(对于数学上不太喜欢的同事而言,则更加困难)。如果是线性趋势等,是否有一种很好的方法来查看异常值?(感谢您链接到R包。) 例如,我可以绘图,Defects / Time ~ Complexity但是这很嘈杂,并且由于Defects离散且很小,所以很难查看趋势。我想到的一件事是,我可以将数据切成分位数,然后对每个分位数进行回归并绘制结果密度-我不确定这是否有效,尤其是因为我的数据不是正态分布的,因此在分位数上误导人们。

5
共线变量怎么办
免责声明:这是一个家庭作业项目。 我正在尝试根据几个变量提出最佳的钻石价格模型,到目前为止,我似乎已经有了一个很好的模型。但是我遇到了两个显然是共线的变量: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 Table和Depth相互依赖,但是我仍然希望将它们包括在我的预测模型中。我对钻石进行了一些研究,发现“表”和“深度”是指钻石的顶部长度和顶部至底部的距离。由于这些钻石的价格似乎与美感相关,而美感似乎与比例有关,因此,我将使用的比率来预测价格。这是处理共线变量的标准程序吗?如果没有,那是什么?Ť一个b 升ëd Ë p 吨ħŤ一种b升ËdËpŤH\frac{Table}{Depth} 编辑:这是深度〜表的图:

2
出于回归的目的,减少预测变量的维数有什么优势?
与传统的回归技术(不进行任何降维处理)相比,降维回归(DRR)或监督降维(SDR)技术有哪些应用或优势?这些技术类别可为回归问题找到特征集的低维表示。此类技术的示例包括切片逆回归,主Hessian方向,切片平均方差估计,内核切片逆回归,主成分回归等。 就交叉验证的RMSE而言,如果在没有任何降维的情况下算法在回归任务上表现更好,那么降维用于回归的真正用途是什么?我不了解这些技术。 这些技术是否有机会用于减少回归所需的时间和空间?如果这是主要优点,那么使用此技术后,一些有关降低高维数据集复杂性的资源将很有帮助。我以运行DRR或SDR技术本身需要一些时间和空间这一事实来对此进行辩论。低调数据集上的此SDR / DRR +回归是否比高调数据集上的仅回归快? 是否仅出于抽象兴趣对这种设置进行了研究,并且没有很好的实际应用? 顺带一提:有时会假设特征和响应的联合分布在流形上。在这种情况下,从观察到的样本中学习流形对于解决回归问题是有意义的。ÿXXXÿYY

1
在R中没有比例赔率假设的情况下,如何在序数逻辑回归中固定系数?
我想在R中进行序数逻辑回归,而没有比例赔率假设。我知道可以通过设置vglm()功能直接完成此操作。Rparallel=FALSE 但是我的问题是如何在此回归设置中固定一组特定的系数?例如,假设因变量是离散的和有序和可以取的值,,或3。如果回归变量为X_ {1}和X_ {2},则回归方程为ÿÿYÿ= 1ÿ=1个Y = 1222333X1个X1个X_{1}X2X2X_{2} 升ø 克我吨( P(是≤ 1 ))升ø 克我吨( P(是≤ 2 ))= α1个+ β11X1个+ β12X2= α2+ β21X1个+ β22X2升ØG一世Ť(P(ÿ≤1个))=α1个+β11X1个+β12X2升ØG一世Ť(P(ÿ≤2))=α2+β21X1个+β22X2 \begin{aligned} {\rm logit} \big( P(Y \leq 1) \big) &= \alpha_{1} + \beta_{11}X_{1} + \beta_{12}X_{2} \\ {\rm logit}\big(P(Y \leq 2) \big) &= \alpha_{2} + \beta_{21}X_{1} + \beta_{22}X_{2} \end{aligned} 我想将和为。请让我知道如何实现这一目标。另外,如果不能执行此操作,是否还可以让我知道是否可以在任何其他统计软件中实现?β11β11\beta_{11}β22β22\beta_{22}1个1个1R
11 r  regression  logistic 

4
是否对OLS中的遗漏变量偏差进行了测试?
我知道Ramsey重置测试可能会检测到非线性相关性。但是,如果只丢弃其中一个回归系数(仅是线性相关性),则可能会产生偏差,具体取决于相关性。重置测试显然未检测到这一点。 我没有找到针对这种情况的测试,而是这样声明:“除非包含潜在的省略变量,否则您无法测试OVB”。这可能是一个合理的陈述,不是吗?

4
如何在回归模型中概念化误差?
我正在参加数据分析课程,而我一些根深蒂固的想法正在动摇。即,误差(ε)以及任何其他类型的方差的想法仅(据我认为)适用于一组(样本或整个人群)。现在,我们被告知回归假设之一是方差“对于所有个体都是相同的”。这在某种程度上令我震惊。我一直认为,假设所有X值中Y的方差都是恒定的。 我与教授聊天,他告诉我,当我们进行回归分析时,我们认为我们的模型是正确的。我认为那是棘手的部分。对我而言,误差项(epsilon)始终表示“诸如我们不知道的任何元素,它们可能会影响我们的结果变量,以及一些测量误差”。在课堂教学中,没有“其他东西”之类的东西。我们的模型假设是真实完整的。这意味着必须将所有残差视为测量误差的乘积(因此,一次测量20个人将产生与一次测量20个人相同的方差)。 我觉得某处有问题,对此我希望有一些专家意见...从概念上来讲,关于错误术语是什么还可以解释吗?

2
例如基于星期几的回归
我需要一点帮助才能朝着正确的方向前进。自从我研究了任何统计数据以来已有很长时间了,术语似乎已经改变。 想象一下,我有一组与汽车相关的数据,例如 从A镇到B镇的旅程时间 A镇到B镇的距离 马达的尺寸 驾驶员鞋码 汽车的型号 星期几 我想预测出行时间。 我认为时间和距离之间存在很强的相关性,而与引擎尺寸之间的相关性可能较弱(与鞋子尺寸无关)。大概是多元回归分析/ ANOVA是要使用的工具。但是,如何将星期几包括在内,因为仅将其编码为Sunday = 1,Monday = 2等感觉很错误? 例如,使用过Excel的回归工具后,如何解释结果?大概如果R接近1,这是很好的(尽管如果有很多数据项,看起来好像很小但仍然很重要)。但是某些资料来源将r平方看成SD,因此值接近零是好的。它还显示t Stat,P值,F和重要性F,无论它们是多少。谁能推荐一个好的参考资料?

2
lm的默认诊断图的可能扩展(在R中和一般而言)?
我开始深入研究plot.lm函数,该函数给出了lm的六个图,它们是: 残差与拟合值的关系图 sqrt(|残差|)对拟合值的比例位置图 普通QQ图,库克距离与行标签的图 残差与杠杆的关系图 库克距离与杠杆/(1-杠杆)的关系图 我想知道线性图还存在电流图的其他常见/有用扩展,以及它们如何在R中完成?(也欢迎链接到包装的文章) 因此,boxcox函数(来自{MASS})是另一个有用的诊断图的示例(这样的答案会很好),但是,我对R中lm的现有默认诊断图的变化/扩展感到好奇(尽管一般始终欢迎您对此主题发表其他评论)。 这是我的意思的一些简单示例: #Some example code for all of us to refer to set.seed(2542) x1 <- rnorm(100) x2 <- runif(100, -2,2) eps <- rnorm(100,0,2) y <- 1 + 2*x1 + 3*x2 + eps y[1:4] <- 14 # adding some contaminated points fit <- lm(y~x1+x2) …


2
正确使用和解释零膨胀伽玛模型
背景:我是一名生物统计学家,目前正在努力研究细胞表达率数据集。该研究使从各种供体中成组收集的大量细胞暴露于某些肽。细胞要么表达某些生物标志物,要么不表达。然后记录每个捐助者群体的答复率。应答率(以百分比表示)是关注的结果,而肽暴露则是预测因素。 请注意,观察结果集中在捐助者之内。 由于我只有汇总数据,因此我将捐助方的回应率视为连续数据(至少目前如此)。 复杂性源于我的数据中有很多零的事实。太多不容忽视。我正在考虑使用零膨胀伽玛模型来处理这样一个事实,即我歪曲了连续数据以及过多的零。我也考虑过Tobit模型,但是由于它假设检查范围是下限,而不是真正的零(计量经济学家可能会说这是没有意义的),因此它看起来很差。 问题:通常来说,什么时候使用零膨胀伽玛模型合适?也就是说,有什么假设?以及如何解释其推论?如果您有任何讨论此文章的链接,我将不胜感激。 我在SAS-L上找到了一个链接,其中Dale McLerran为零膨胀的伽马模型提供了NLMIXED代码,因此这似乎是可能的。尽管如此,我还是不想盲目地充电。


2
我应该为每个社区运行单独的回归,还是社区可以简单地作为聚合模型中的控制变量?
我正在运行带有连续资产索引变量作为DV的OLS模型。我的数据来自三个相似的社区,彼此之间的地理位置非常接近。尽管如此,我认为使用社区作为控制变量很重要。事实证明,社区在1%的水平(-4.52的t评分)上具有重要意义。社区是3个不同社区中的1个的名义/类别变量,编码为1,2,3。 我的问题是,这种高度的意义是否意味着我应该对社区进行个别回归,而不是作为一个整体。否则,使用社区作为控制变量是否可以做到这一点?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.