Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
为什么因变量中的测量误差不会使结果偏倚?
当自变量存在测量误差时,我知道结果将偏向于0。当因变量测量有误差时,他们说这只会影响标准误差,但这对我来说没有多大意义,因为我们估计的影响不是对原始变量的影响,而是对其他一些加上误差的影响。那么这如何不影响估计呢?在这种情况下,我还可以使用工具变量来消除此问题吗?XXXYYYYYY

4
为什么不对数转换所有不重要的变量呢?
书籍和讨论经常指出,当遇到预测变量的问题(其中有几个)时,有可能对数转换。现在,我知道这取决于预测变量的分布和正态性,并不是回归的假设;但是对数转换确实会使数据更加统一,不受异常值的影响等。 我考虑过对数转换所有不是主要变量的连续变量,即我仅调整的变量。 错了吗 好?无用?

2
具有逆自变量的回归
假设我有一个因变量的向量和一个自变量的向量当相对绘制时,我发现两者之间存在线性关系(上升趋势)。现在,这也意味着和之间存在线性下降趋势。Y N X Y 1ñNNÿYYñNNXXXÿYY YX1个X1X\frac{1}{X}ÿYYXXX 现在,如果我运行回归: 并获得拟合值ÿ = β Xÿ= β* X+ ϵY=β∗X+ϵY = \beta * X + \epsilonÿ^= β^XY^=β^X\hat{Y} = \hat{\beta}X 然后运行回归:并获得拟合值 〜Ŷ = α 1ÿ= α * 1X+ ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonÿ〜= α^1个XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} 和这两个预测值大约相等吗? 〜ÿÿ^Y^\hat{Y}ÿ〜Y~\tilde{Y}

2
干预与差异
例如,如此处讨论的那样,当使用时间序列数据(也称为“中断时间序列”)进行干预分析时,我的一项要求是估算由于干预导致的总收益(或损失),即获得或损失的单位数(Y变量) )。 我不完全了解如何使用R中的过滤器函数来估计干预函数,而是以蛮力的方式进行了研究,希望它能够在任何情况下都能通用。 假设给定数据 cds<- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim = c(29L, 1L), .Dimnames = list( NULL, "CD"), .Tsp = c(2012, 2014.33333333333, 12), class = …

3
在R(或一般而言)中是否可能迫使回归系数成为某个符号?
我正在处理一些现实世界的数据,回归模型产生了一些违反直觉的结果。通常,我相信统计数据,但实际上其中一些事情是不正确的。我看到的主要问题是,实际上必须将它们负相关时,一个变量的增加会引起响应的增加。 有没有一种方法可以为每个回归系数强制指定符号?任何这样做的R代码也将不胜感激。 感谢您提供的所有帮助!


1
为什么非正态分布的错误会影响我们的重要性陈述的有效性?
考虑OLS模型时,存在一个正态性假设,即误差是正态分布的。我一直在浏览交叉验证,这听起来像Y和X不一定是正常的,以便使错误正常。我的问题是,为什么当我们出现非正态分布的错误时,重要性声明的有效性受到了损害?为什么置信区间太宽或太窄?

1
广义加性模型的方差膨胀因子
在用于线性回归的常规VIF计算中,每个自变量/解释变量在普通最小二乘回归中均被视为因变量。即XjXjX_j Xj=β0+∑i=1,i≠jnβiXiXj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 的值被存储用于每个的回归和VIF由下式确定R2R2R^2nnn VIFj=11−R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 对于特定的解释变量。 假设我的广义加性模型采用以下形式: Y=β0+∑i=1nβiXi+∑j=1msj(Xi).Y=β0+∑i=1nβiXi+∑j=1msj(Xi). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . 这种类型的模型是否有等效的VIF计算?有什么方法可以控制平滑项来测试多重共线性吗?sjsjs_j

1
拟合GARCH(1,1)-R中具有协变量的模型
我对时间序列建模有一些经验,以简单的ARIMA模型等形式。现在,我有一些表现出波动性聚类的数据,我想尝试从数据上拟合GARCH(1,1)模型开始。 我有一个数据系列,并且我认为许多变量会影响它。因此,从基本的回归角度来看,它看起来像: ÿŤ= α + β1个XŤ 1+ β2X第2+ ϵŤ。yt=α+β1xt1+β2xt2+ϵt. y_t = \alpha + \beta_1 x_{t1} + \beta_2 x_{t2} + \epsilon_t . 但是我完全不知道如何将其实现为GARCH(1,1)-模型?我已经在中查看了rugarch-package和fGarch-package R,但是除了可以在Internet上找到的示例之外,我没有做任何有意义的事情。
10 r  regression  garch 

1
使用训练和测试集评估回归模型的性能?
我经常听到有关通过提供测试集并在训练集上训练模型来评估分类模型的性能的信息。然后创建2个向量,一个用于预测值,一个用于真实值。显然,进行比较可以使人们使用F-Score,Kappa统计,Precision&Recall,ROC曲线等工具通过其预测能力来判断模型的性能。 这与评估诸如回归之类的数字预测相比有何不同?我假设您可以在训练集上训练回归模型,使用它来预测值,然后将这些预测值与测试集中的真实值进行比较。显然,性能指标必须有所不同,因为这不是分类任务。通常的残差和统计量是明显的量度,但是是否有更多/更好的方法来评估回归模型的性能?分类似乎有很多选择,但是回归留给和残差。R2R2R^2R2R2R^2

1
这两个回归模型之间的根本区别是什么?
假设我有一个具有显着相关性的双变量响应。我正在尝试比较两种模拟这些结果的方法。一种方法是对两个结果之间的差异进行建模: 另一种方法是对它们进行使用或建模: (yi2−yi1=β0+X′β)(yi2−yi1=β0+X′β)(y_{i2}-y_{i1}=\beta_0+X'\beta)glsgee(yij=β0+time+X′β)(yij=β0+time+X′β)(y_{ij}=\beta_0+\text{time}+X'\beta) 这是一个foo示例: #create foo data frame require(mvtnorm) require(reshape) set.seed(123456) sigma <- matrix(c(4,2,2,3), ncol=2) y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma) cor(y) x1<-rnorm(500) x2<-rbinom(500,1,0.4) df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2) df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long") df.long<-df.long[order(df.long$id),] df.wide$diff_y<-df.wide$y2-df.wide$y1 #regressions fit1<-lm(diff_y~x1+x2,data=df.wide) fit2<-lm(y~time+x1+x2,data=df.long) fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time)) fit1和之间有什么根本区别fit2?在fit2和之间fit3,假设它们与值和估计值如此接近?ppp

2
稳健的回归推断和Sandwich估计量
您能否举一个使用三明治估计器来执行可靠回归推断的示例? 我可以在中看到示例?sandwich,但是我不太理解如何使用函数返回的方差-协方差矩阵从lm(a ~ b, data)(r编码)到估计值和p值,该值是由回归模型得出的sandwich。
10 r  regression  lm  sandwich 

3
当大时比较嵌套的二进制logistic回归模型
为了更好地问我的问题,我已经提供了一些来自一个16级模型(输出fit)和17变量模型(fit2)以下(在这些模型中的所有预测变量是连续的,在这些模型之间的唯一区别在于fit不包含变量17(var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416 max |deriv| 3e-05 gp 0.180 tau-a 0.177 Brier 0.190 fit2 Model Likelihood Discrimination …

4
在这种情况下,对y的x回归明显好于对y的y吗?
在一个10人的随机样本上监测用于测量人血液中葡萄糖水平的仪器。还可以使用非常准确的实验室程序来测量水平。仪器度量用x表示。实验室程序度量用y表示。 我个人认为x上的y更正确,因为其目的是使用仪器读数来预测实验室读数。x上的y最小化了此类预测的误差。 但是提供的答案是y上的x。

3
与弹性网有关的混乱
我正在阅读与弹性网有关的这篇文章。他们说他们使用弹性网,因为如果我们仅使用套索,它倾向于在高度相关的预测变量中仅选择一个预测变量。但这不是我们想要的。我的意思是,它使我们免于多重共线性的麻烦,不是吗。 有什么建议/澄清吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.