Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
最小二乘假设
假定以下线性关系: Yi=β0+β1Xi+uiYi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i,其中YiYiY_i是因变量,XiXiX_i的单个自变量和uiuiu_i误差项。 根据Stock&Watson(《计量经济学概论》;第4章),第三个最小二乘假设是XiXiX_i和的第四矩是uiuiu_i非零且有限的(0&lt;E(X4i)&lt;∞ and 0&lt;E(u4i)&lt;∞)(0&lt;E(Xi4)&lt;∞ and 0&lt;E(ui4)&lt;∞)(0<E(X_i^4)<\infty \text{ and } 0<E(u_i^4)<\infty)。 我有三个问题: 我不完全理解此假设的作用。如果该假设不成立,或者我们需要此假设进行推断,OLS是否有偏见且不一致? Stock和Watson写道:“这种假设限制了使用XiXiX_i或极大值进行观察的可能性uiuiu_i。” 但是,我的直觉是这种假设是极端的。如果我们有较大的离群值(例如第四矩很大),但是如果这些值仍然有限,我们会遇到麻烦吗?顺便说一句:离群值的基础定义是什么? 我们可以重新定义为:“ XiXiX_i和的峰度uiuiu_i是非零且有限的吗?”



2
是否允许对数据集使用平均值来改善相关性?
我有一个具有因变量和自变量的数据集。两者都不是时间序列。我有120个观察结果。相关系数为0.43 经过此计算后,我为两个变量添加了一个列,每12个观察值的平均值,结果得到2个新列,包含108个观察值(对)。这些列的相关系数为0.77 看来我以这种方式改善了相关性。可以这样做吗?我是否通过使用平均值提高了自变量的解释能力?

2
从“均匀间隔”的样本开始在单位磁盘上进行回归
我需要解决单位磁盘上的一个复杂的回归问题。最初的问题吸引了一些有趣的评论,但不幸的是没有答案。同时,我学到了更多有关此问题的知识,因此,我将尝试将原始问题分解为子问题,并查看这次是否运气更好。 我有40个温度传感器,它们定期以单位圆盘内的窄环间隔开: 这些传感器会及时获取温度。但是,由于时间变化远小于空间变化,因此我们通过忽略时间变化来简化问题,并假设每个传感器只给我一个时间平均值。这意味着我有40个样本(每个传感器一个),并且没有重复的样本。 我想根据传感器数据建立回归曲面。回归有两个目标:Ť= f(ρ ,θ )+ ϵT=f(ρ,θ)+ϵT=f(\rho,\theta)+\epsilon 我需要估算平均径向温度曲线。通过线性回归,我已经估算出了一个表面,该表面是平均温度表面,因此,我只需要针对积分我的表面,对吗?如果我使用多项式进行回归,那么这一步应该是小菜一碟。θŤ米Ë 一个Ñ= 克1个(ρ )+ ϵTmean=g1(ρ)+ϵT_{mean}=g_1(\rho)+\epsilonθθ\theta 我需要估算径向温度曲线,这样在每个径向位置。P (Ť (ρ )&lt; Ť 95(ρ ))= 0.95Ť95= 克2(ρ )+ ϵT95=g2(ρ)+ϵT_{95}=g_2(\rho)+\epsilonP(T(ρ )&lt; T95(ρ ))= 0.95P(T(ρ)&lt;T95(ρ))=.95P(T(\rho)<T_{95}(\rho))=.95 给定这两个目标,我应该使用哪种技术对单位磁盘进行回归?当然,高斯过程通常用于空间回归。但是,为单位磁盘定义一个好的内核并不是一件容易的事,因此,我想保持简单并使用多项式,除非您认为这是一个失败的策略。我读过有关Zernike多项式的信息。Zernike多项式似乎适用于单位圆上的回归,因为它们在是周期性的。θθ\theta 选择模型后,我需要选择一种估算程序。由于这是一个空间回归问题,因此应将不同位置的错误关联起来。普通最小二乘法假设存在不相关的错误,因此我想广义最小二乘会更合适。假设gls标准R分布中有一个函数,则GLS似乎是一种相对普遍的统计技术。但是,我从未使用过GLS,并且对此表示怀疑。例如,如何估计协方差矩阵?一个可行的示例,即使只有几个传感器,也将是很棒的。 PS我选择使用Zernike多项式和GLS,因为在我看来这样做是合乎逻辑的。但是,我不是专家,如果您觉得我走错了方向,请随意使用完全不同的方法。

1
线性基础学习器如何促进学习?以及它如何在xgboost库中工作?
我知道如何在XGBoost中实现线性目标函数和线性提升。我的具体问题是:当算法适合残差(或负梯度)时,是在每个步骤使用一个特征(即单变量模型)还是在所有特征(多元模型)中使用? 任何有关XGBoost中线性增强功能的文档参考都将受到赞赏。 编辑:通过将“ booster”参数设置为“ gblinear”,可以在XGBoost中实现线性增强。有关线性增强的有用信息,请参见:http : //www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/。请注意,我并不是在谈论目标函数(也可以是线性的),而是关于提升它们自己。 谢谢!

2
如何在线性回归中计算x截距的置信区间?
由于通常对响应变量给出线性回归的标准误差,因此我想知道如何在另一个方向上获取置信区间,例如对于x截距。我可以看到它可能是什么,但是我敢肯定必须有一种简单的方法来做到这一点。下面是R中如何形象化显示的示例: set.seed(1) x &lt;- 1:10 a &lt;- 20 b &lt;- -2 y &lt;- a + b*x + rnorm(length(x), mean=0, sd=1) fit &lt;- lm(y ~ x) XINT &lt;- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, pch=4) newdat &lt;- data.frame(x=seq(-2,12,len=1000)) # CI pred &lt;- …

1
可以使用线性回归中的标准化
我试图解释一篇文章的结果,他们运用多元回归来预测各种结果。但是的(定义为标准B系数,其中是从属变量且是预测变量)报告似乎与报告的不匹配:ββ\betaβx1=Bx1⋅SDx1SDyβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}yyyx1x1x_1R2R2R^2 尽管为-0.83,-0.29,-0.16,-0.43、0.25和-0.29,但报告的仅为0.20。ββ\betaR2R2R^2 同样,三个预测因子:体重,BMI和脂肪%是共线的,在性别内彼此相关,r = 0.8-0.9。 值是否适合这些,或者与之间没有直接关系?R2R2R^2ββ\betaββ\betaR2R2R^2 此外,多共线性预测变量的问题可能会影响第四个预测变量的(VO2max),它与上述三个变量在r = 0.4附近相关吗?ββ\beta

1
加权最小二乘方权重定义:R lm函数与
谁能告诉我为什么我从R加权最小二乘法和矩阵运算的手动解中得到不同的结果? 具体来说,我正在尝试手动求解,其中是权重的对角矩阵,是数据矩阵,是响应向量。 WAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 我正在尝试R lm使用weights参数将结果与函数进行比较。

1
普通的最小二乘是什么?
我的一个朋友最近问什么是普通的,关于普通最小二乘。我们似乎没有在讨论中取得任何进展。我们都同意OLS是线性模型的特例,它具有许多用途,众所周知,并且是许多其他模型的特例。但这真的是全部吗? 因此,我想知道: 名字的真正来源是什么? 谁是第一个使用这个名字的人?

2
为回归中的最新观察结果分配更多权重
如何为R中的最新观测值分配更多权重? 我认为这是一个常见的问题或愿望,但是我很难弄清楚该如何实现。我试图对此进行大量搜索,但是我找不到一个很好的实际例子。 在我的示例中,随着时间的推移,我将拥有一个大型数据集。我想说的是对最近的数据行进行某种指数加权。因此,我将具有某种指数函数,即2015年的观测值对训练模型比_2012年的观测值更重要。 我的数据集变量包含分类值和数字值的混合,而我的目标是一个数值-如果重要的话。 我想使用GBM / Random Forest等模型进行测试/尝试,最好在CARET软件包中进行测试。 更新问题 我很欣赏下面给出的关于如何按两点之间的日期距离以指数方式衰减权重的响应。 但是,当涉及到在插入符号中训练此模型时,权重因素又如何精确计算呢?每个训练行中的权重值是将来某个点与该点历史发生之间的距离。 权重是否仅在预测期间起作用?因为如果它们在训练过程中发挥作用,那会不会引起各种问题,因为各种交叉折叠的权重都不同,试图预测可能早于它的某个时间点?

2
为什么在时间序列模型中使用信息标准(未调整的
在时间序列模型(例如ARMA-GARCH)中,为了选择模型的适当滞后或阶数,使用了不同的信息标准(例如AIC,BIC,SIC等)。 我的问题很简单,为什么不使用调整后的[R2R2R^2选择合适的模型?我们可以选择导致较高的值的模型[R2R2R^2。因为调整后的[R2R2R^2和信息准则都会对模型中更多数量的回归变量进行惩罚,因此前者惩罚[R2R2R^2而后者则惩罚似然值。

1
数据空间,变量空间,观察空间,模型空间(例如,线性回归)
假设我们有一个数据矩阵(它是 ×)和标签矢量(它是 ×1)。在这里,矩阵的每一行都是一个观察值,每一列都对应一个维度/变量。(假设)XX\mathbf{X}ññnpppÿÿYññnÑ &gt; pñ&gt;pn>p 那么什么data space,variable space,observation space,model space是什么意思? 列向量跨越的空间是否是一个(退化的) -D空间,因为它具有坐标,而列为,又称为列可变空间,因为它被变量向量跨越了?还是因为每个维度/坐标都对应一个观测值,所以将其称为观测空间?ññnññnppp 行向量跨越的空间又如何呢?

2
这两个布劳希-帕根检验之间有什么区别?
在某些数据上使用R并尝试查看我的数据是否为异方差,我发现了Breusch-Pagan测试的两个实现,即bptest(包lmtest)和ncvTest(包车)。但是,这些产生不同的结果。两者有什么区别?您何时应该选择使用其中一个? &gt; model &lt;- lm(y ~ x) &gt; bp &lt;- bptest(model) &gt; bp studentized Breusch-Pagan test data: model BP = 3.3596, df = 1, p-value = 0.06681 &gt; ncvTest(model) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 3.858704 Df = 1 p = 0.04948855 这些示例表明,根据测试,我的数据在一种情况下是异方差的,在另一种情况下是同方的。我确实在这里找到了这个问题,所以bptest可能是学生化的,而ncvTest可能不是,但是,那意味着什么呢?

4
解释AIC值
我在逻辑模型中看到的AIC的典型值是数千,至少数百。例如,在http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/上 ,AIC为727.39 虽然总是说AIC仅应用于比较模型,但我想了解特定AIC值的含义。根据公式, 一个我C= - 2 日志(L )+ 2 K一个一世C=-2日志⁡(大号)+2ķAIC= -2 \log(L)+ 2K 其中,L =来自MLE估计器的最大似然,K是参数数量 在上面的示例中,K = 8 因此,用简单的算术: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= 711.39/-2 = -355.695 Hence, L = exp(-355.695) = 3.3391E-155 因此,如果我的理解是正确的,这就是通过MLE拟合数据确定的功能的可能性。这似乎真的真的很低。 我在这里想念什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.