Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
为什么将指数logistic回归系数视为“奇数比”?
Logistic回归将事件的对数几率建模为一组预测变量。也就是说,log(p /(1-p))其中p是某种结果的概率。因此,对于某些变量(x)的原始逻辑回归系数的解释必须在对数优势比上。就是说,如果x的系数= 5,那么我们知道x值对应的1单位更改对应于对数赔率标度上的5单位更改,将发生结果。 但是,我经常看到人们将指数 logistic回归系数解释为优势比。但是,显然exp(log(p /(1-p)))= p /(1-p),这是一个赔率。据我了解,优势比是一个事件发生的几率(例如,事件A的p /(1-p))与另一个事件发生的几率(例如,事件p /(1-p)) B)。 我在这里想念什么?似乎这种对指数逻辑回归系数的常见解释是不正确的。


3
计算约束(非负)最小二乘法中的p值
我一直在使用Matlab来执行无约束的最小二乘(普通最小二乘),它会自动输出系数,检验统计量和p值。 我的问题是,在执行约束最小二乘法(严格为非负系数)时,它仅输出系数,而无检验统计量,p值。 可以计算这些值以确保重要性吗?为何不能直接在软件(或与此相关的任何其他软件)上使用它?

2
回归中的B样条VS高阶多项式
我没有特定的示例或任务。我只是使用b样条的新手,我想在回归上下文中更好地了解此函数。 假设我们要评估响应变量与某些预测变量x 1,x 2,...之间的关系。。。,X p。预测变量包括一些数值变量和一些分类变量。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 假设在拟合回归模型后,数值变量之一(例如是有效的。之后的逻辑步骤是评估是否需要更高阶的多项式,例如:x 2 1和x 3 1,以便在不过度拟合的情况下充分说明该关系。x1x1x_1x21x12x_1^2x31x13x_1^3 我的问题是: 在什么时候选择b样条曲线或简单的高阶多项式。例如在R: y ~ poly(x1,3) + x2 + x3 与 y ~ bs(x1,3) + x2 + x3 您如何使用图来告知您在这两者之间的选择,以及从图上还不清楚时会发生什么情况(例如:由于大量数据点) 您将如何评估和x 3之间的双向交互作用项x2x2x_2x3x3x_3 对于不同类型的模型,上述变化如何 您是否会考虑从不使用高阶多项式并始终拟合b样条并惩罚高灵活性?

2
当使用OLS回归残差的误差时,为什么斜率总是正好为1?
我正在使用R中的一些简单模拟试验误差和残差之间的关系。我发现一件事是,无论样本大小或误差方差如何,当您拟合模型时,斜率始终为111 errors∼β0+β1×residualserrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} 这是我正在做的模拟: n <- 10 s <- 2.7 x <- rnorm(n) e <- rnorm(n,sd=s) y <- 0.3 + 1.2*x + e model <- lm(y ~ x) r <- model$res summary( lm(e ~ r) ) e并且r即使是小样本也具有高度(但不是完美)的相关性,但我不知道为什么会自动发生这种情况。数学或几何解释将是可理解的。

3
数据科学家访谈问题:线性回归低,您会怎么做
我遇到了一个工作的面试问题,面试官问我,假设您的价格弹性模型的非常低(介于5%到10%之间)。您将如何解决这个问题?R2R2R^2 除了我将进行回归诊断以查看出了什么问题或是否应该应用任何非线性方法外,我什么也没想到。我以某种方式认为面试官对我的回答不满意。尽管低,在这种情况下还有其他方法可以拟合模型并用于生产水平预测吗?R2R2R^2 编辑:在稍后的阶段,他们给了我数据以在面试中对问题进行建模,我尝试添加了滞后变量,竞争对手价格的影响,季节性假人,看是否有任何不同。达到了17.6%,在保留样本上的表现很差。我个人认为将这样的模型放在实时环境中进行预测是不道德的,因为它会产生错误的结果并导致客户流失(想象一下,使用这种模型中的定价建议对您的公司收益!)。在这种情况下还有什么其他所有人都需要知道的事情吗?我不知道的什么,我很想说“银弹”?R2R2R^2 此外,让我们想象一下,添加外生变量后再提高2%,那么在这种情况下可以做什么?我们应该放弃建模项目,还是仍然有希望开发出生产水平质量的模型,该模型由保留样本的性能来表示?R2R2R^2 Edit2:我已将此问题发布在Economics.stackexchange.com论坛上,以从经济学的角度理解此问题

1
为什么对于人工多项式展开和使用R`poly`函数会得到不同的预测?
为什么对于人工多项式展开和使用R poly函数会得到不同的预测? set.seed(0) x <- rnorm(10) y <- runif(10) plot(x,y,ylim=c(-0.5,1.5)) grid() # xp is a grid variable for ploting xp <- seq(-3,3,by=0.01) x_exp <- data.frame(f1=x,f2=x^2) fit <- lm(y~.-1,data=x_exp) xp_exp <- data.frame(f1=xp,f2=xp^2) yp <- predict(fit,xp_exp) lines(xp,yp) # using poly function fit2 <- lm(y~ poly(x,degree=2) -1) yp <- predict(fit2,data.frame(x=xp)) lines(xp,yp,col=2) 我的尝试: 截距似乎是一个问题,当我将模型与截距拟合时,即-1在模型中不存在时formula,这两行是相同的。但是,为什么没有截距,这两行是不同的? …


2
条件均值独立性意味着OLS估计量的无偏性和一致性
考虑以下多元回归模型:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} 这里是列向量; a矩阵; a列向量; Z a n \ times l矩阵;\增量一升\次1个的列向量; 和U,误差项,n \ times1列向量。YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 题 我的讲师是《计量经济学概论》教科书,第三版。 詹姆斯·H·斯托克(James H. Stock)和马克·沃森(Mark W.Watson)281,和《计量经济学:荣誉考试复习会》(PDF),第2页。7,向我表达了以下内容。 如果我们假设所谓的条件平均独立性,根据定义,这意味着E(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} 并且如果满足最小二乘假设,但条件均值零假设(因此,我们假设)(请参阅1 -3以下),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 然后,在这个较弱的假设集合下,中的OLS估计量保持无偏且一致。β^β^\hat{\beta}ββ\beta(1)(1)(1) 我如何证明这一主张?即,1和2以上意味着OLS估计给了我们一个公正的和一致的估计?是否有任何研究文章证明这一主张?ββ\betaββ\beta 评论 最简单的情况是通过考虑线性回归模型给出并证明了OLS估计的如果每个,则是无偏的。Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+u_i,\quad i=1,2,\ldots,n,β 1 β 1 È (û 我| X 我,Ž 我)= È (û 我| Ž 我)我β^1β^1\hat{\beta}_1β1β1\beta_1E(ui|Xi,Zi)=E(ui|Zi)E(ui|Xi,Zi)=E(ui|Zi)E(u_i|X_i,Z_i)=E(u_i|Z_i)iii 证明无偏的假设和共同正态分布UiUiU_iZiZiZ_i 定义,然后和因此,可以重写为通过,得出现在,由于和共同为正态分布,因此正态分布的理论请参见。推导多元正态分布的条件分布,表示(实际上,我们不需要假设联合正态性,而只需假设此同一性)对于某乘矢量V=U−E(U|X,Z)V=U−E(U|X,Z)V=U-E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)E(V|X,Z)=0.(*)(*)E(V|X,Z)=0.E(V|X,Z)=0\tag{*}.(1)(1)(1)Y=Xβ+Zδ+E(U|X,Z)+V.(3)(3)Y=Xβ+Zδ+E(U|X,Z)+V.Y=X\beta+Z\delta+E(U|X,Z)+V.\tag{3}(2)(2)(2)Y=Xβ+Zδ+E(U|Z)+V.(4)(4)Y=Xβ+Zδ+E(U|Z)+V.Y=X\beta+Z\delta+E(U|Z)+V.\tag{4}UiUiU_iZiZiZ_i …

1
使用通用优化器复制glmnet线性回归的结果
如标题所示,我正在尝试使用来自library的LBFGS优化器从g​​lmnet linear复制结果lbfgs。只要我们的目标函数(没有L1正则化项)是凸的,此优化器就可以让我们添加L1正则化项,而不必担心可微性。 glmnet纸中的弹性净线性回归问题由 其中X \ in \ mathbb {R} ^ {n \ times p}是设计矩阵,y \ in \ mathbb {R} ^ p是观测向量,\ alpha \ in [0,1]是弹性网参数,而\ lambda> 0是正则化参数。运算符\ Vert x \ Vert_p表示通常的Lp范数。 X∈[RÑ×pý∈[Rpα∈[0,1]λ>0‖X‖p分β∈ [Rp1个2 n∥ β0+ Xβ- ÿ∥22+ α λ ∥ β∥1个+ 12(1 - α )λ ∥ β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert …

2
比较R中两个多项式回归之间差异的统计显着性
因此,首先,我在这个论坛上进行了一些研究,我知道 已经提出了非常相似的问题,但是通常没有得到正确答案,或者有时答案不够详尽,我无法理解。所以这一次我的问题是:我有两组数据,每组数据都像这样进行多项式回归: Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) 多项式回归图为: 系数为: > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 现在,我想知道,是否有一种方法可以使用R函数进行检验,从而知道两个天数的相关区间为[ 1100]。 根据我的理解,我无法直接应用方差分析测试,因为这些值来自两组不同的数据或AIC(用于比较模型/真实数据)。 我试图按照@Roland在相关问题中给出的说明进行操作,但在查看结果时可能会误解了一些内容: 这是我所做的: 我将两个数据集合并为一个。 f是@Roland谈到的可变因素。我将第一组的数字设置为1,将另一组的数字设置为0。 y<-(mydata2[,c(2)]) x<-(mydata2[,c(1)]) f<-(mydata2[,c(3)]) plot(x,y, xlim=c(1,nrow(mydata2)),type='p') fit3ANOVA <- lm( y~(poly(x,2)) ) fit3ANOVACN <- lm( y~f*(poly(x,2)) ) 我的数据现在看起来像这样: 红色的fit3ANOVA仍在工作,但我对蓝色的问题fit3ANOVACN有疑问,该模型的结果很奇怪。我不知道拟合模型是否正确,我不明白@Roland的确切含义。 考虑@DeltaIV解决方案,我想在那种情况下: 即使模型重叠,它们的模型也存在显着差异。我可以这样假设吗?

1
定期样条以适应定期数据
在对这个问题的评论中,用户@whuber引用了使用样条曲线的定期版本来拟合定期数据的可能性。我想了解更多有关此方法的信息,特别是定义样条曲线的方程式,以及如何在实践中实现它们(我主要是R用户,但如有需要,可以使用MATLAB或Python)。同样,但这是“很高兴”的事情,很高兴知道与三角多项式拟合有关的可能的优点/缺点,这就是我通常如何处理此类数据(除非响应不是很平稳,在这种情况下,我会切换到具有周期性内核的高斯过程。

2
回归:为什么要测试整体残差的正态性,而不是以为条件的残差?
我了解到,在线性回归中,误差假定为正态分布,并取决于y的预测值。然后,我们将残差视为错误的一种替代。 通常建议生成如下输出:。但是,我不明白获取每个数据点的残差并将其混和到一个图中的意义是什么。 我知道我们不太可能有足够的数据点来正确评估在每个y预测值处是否都具有正常残差。 但是,是否不是我们的正常残差是否整体上是一个单独的残差,以及与每个y预测值处的正常残差的模型假设没有明确关系的问题?我们不能在每个y预测值处都有正常残差,而总残差却很不正常吗?

1
对自相关二进制时间序列建模
对二进制时间序列建模的常用方法是什么?是否有纸质或教科书在其中处理?我认为具有强自相关的二进制过程。类似于从零开始的AR(1)进程的符号。说且 有白噪声。然后,由定义 的二进制时间序列 将显示自相关,我想用以下代码进行说明X0=0X0=0X_0 = 0Xt+1=β1Xt+ϵt,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, ϵtϵt\epsilon_t(Yt)t≥0(Yt)t≥0(Y_t)_{t \ge 0}Yt=sign(Xt)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) X = rep(0,100) beta = 0.9 sigma = 0.1 for(i in 1:(length(X)-1)){ X[i+1] =beta*X[i] + rnorm(1,sd=sigma) } acf(X) acf(sign(X)) 如果我得到二进制数据并且我所知道的是存在显着的自相关,那么教科书/常用的建模方法是什么?YtYtY_t 我认为,如果使用外部回归变量或季节性假人,我可以进行逻辑回归。但是,纯时间序列方法是什么? 编辑:确切地说,我们假设sign(X)最多可自动关联4个滞后。这将是4阶的马尔可夫模型,我们可以对其进行拟合和预测吗? 编辑2:同时,我偶然发现了时间序列的glms。这些是解释错误的变量,它们是滞后的观察结果和外部回归变量。但是,这似乎是针对泊松和负二项式分布计数完成的。我可以使用泊松分布来估算伯努利斯。我只是想知道是否没有明确的教科书方法。 编辑3:赏金到期...有什么想法吗?

3
哪种回归模型最适合用于计数数据?
我想稍微了解一下统计信息,但是我有些固执。我的数据如下: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 我现在想建立一个回归模型,以便能够根据数据预测任何给定年份的基因数量。直到现在,我都使用线性回归进行分析,但是我已经阅读了一些文章,对于这种数据,它似乎并不是最佳选择。我已经读过泊松回归可能有用,但是我不确定该使用什么。所以我的问题是: 是否有针对此类数据的通用回归模型?如果不是,我该怎么做才能找出最适合使用哪种方法(就我必须了解的数据而言)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.