Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
是否存在逻辑回归的iid假设?
是否存在逻辑回归的响应变量的iid假设? 例如,假设我们有数据点。响应似乎来自具有的伯努利分布。因此,我们应该有具有不同参数伯努利分布。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp 因此,它们是“独立的”,但不是“相同的”。 我对吗? PS。我从“机器学习”文献中学到了逻辑回归,在该文献中我们优化了目标函数并检查了它是否适合测试数据,而没有过多地讨论假设。 我的问题从这篇文章开始理解广义线性模型中的链接函数,在这里我尝试了解有关统计假设的更多信息。

4
为什么普通最小二乘法的性能优于泊松回归?
我试图通过回归分析来解释城市每个地区的凶杀案数量。尽管我知道我的数据遵循泊松分布,但我尝试像这样拟合OLS: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon 然后,我也尝试了(当然!)泊松回归。问题是我在OLS回归中有更好的结果:伪较高(0.71对0.57),RMSE也较高(3.8对8.88。标准化以具有相同的单位)。R2R2R^2 为什么?正常吗 无论数据分布如何,使用OLS都有什么问题? 编辑 根据kjetil b halvorsen等人的建议,我通过两个模型拟合了数据:OLS和负二项式GLM(NB)。我从拥有的所有功能开始,然后递归地逐一删除了不重要的功能。OLS是 crimearea−−−−√=α+βX+ϵcrimearea=α+βX+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon 权重=。areaareaarea summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area …

1
备忘单ANOVA字母汤和回归等效项
我能否获得帮助以完成此暂定(正在进行中)的尝试,以了解与ANOVA和REGRESSION等效项的含义?我一直在尝试调和这两种方法的概念,术语和语法。这个站点上有很多关于它们的共性的帖子,例如this或this,但是在开始时有一张快速的“ you are here”地图仍然是一件好事。 我计划更新此帖子,并希望获得纠正错误的帮助。 单向方差分析: Structure: DV is continuous; IV is ONE FACTOR with different LEVELS. Scenario: miles-per-gal. vs cylinders Note that Income vs Gender (M, F) is a t-test. Syntax: fit <- aov(mpg ~ as.factor(cyl), data = mtcars); summary(fit); TukeyHSD(fit) Regression: fit <- lm(mpg ~ as.factor(cyl), mtcars) # …

1
LOOCV公式的证明
根据James等人的《统计学习入门》,留一法交叉验证(LOOCV)估计值定义为 其中。CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 没有证据,方程式(5.2)指出,对于最小二乘或多项式回归(我是否只适用于仅对一个变量进行回归), 其中“为在从原来的最小二乘个拟合值拟合(不知道的方式这意味着什么,,它使用意味着所有数据集?点)和是杠杆作用”,这是由定义ÿ我我CV(n)=1n∑i=1n(yi−y^i1−hi)2CV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2y^iy^i\hat{y}_iiiihihih_ihi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.hi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.} 如何证明这一点? 我的尝试:首先可以注意到 但分开由此(如果我还记得,公式仅适用于简单的线性回归...),我不确定如何从此处继续。ħ我y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2\hat{y}_i = \beta_0 + \sum\limits_{i=1}^{k}\beta_k X_k + \text{some polynomial terms of degree }\geq 2hihih_i




4
在线性回归中更改零假设
我有一些高度相关的数据。如果我运行线性回归,则会得到一条斜率接近1(= 0.93)的回归线。我想做的是测试此斜率是否与1.0明显不同。我的期望不是。换句话说,我想将线性回归的零假设从零的斜率更改为一的斜率。这是明智的做法吗?我也非常感谢您可以在回答中包含一些R代码,以便我可以实现此方法(或您建议的更好的方法!)。谢谢。

4
从线性,指数和对数函数中确定最佳拟合曲线拟合函数
内容: 在有关数学堆栈交换的问题(我可以构建一个程序)上,某人有一组点,并希望为其拟合曲线(线性,指数或对数)。通常的方法是从选择其中一种(指定模型)开始,然后进行统计计算。x − yX-ÿx-y 但是真正需要的是从线性,指数或对数中找到“最佳”曲线。 表面上,一个人可以尝试所有三个,然后根据最佳相关系数选择三个中的最佳拟合曲线。 但是不知何故,我觉得这还不够洁。通常公认的方法是先选择模型,然后选择这三个模型之一(或其他链接函数),然后从数据中计算系数。事实上,事后采摘是樱桃采摘。但是对我而言,无论您是从数据确定函数还是系数,这仍然是同一回事,您的过程正在发现最好的东西(例如,发现哪个函数也是另一个系数)。 问题: 根据拟合统计量的比较,从线性,指数和对数模型中选择最佳拟合模型是否合适? 如果是这样,最合适的方法是什么? 如果回归有助于在函数中找到参数(系数),为什么不能有一个离散的参数来选择三个最佳曲线系列中的哪一个呢?

3
获得线性模型中预测极限的公式(即预测间隔)
让我们来看下面的例子: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) 这将使用OLS回归基于x1和x2创建y模型。如果我们希望针对给定的x_vec预测y,则可以简单地使用从中获得的公式summary(fit)。 但是,如果我们要预测y的上下预测怎么办?(对于给定的置信度)。 那我们将如何建立公式?

4
我可以简单地删除两个高度线性相关的预测变量之一吗?
使用Pearson的相关系数,我有几个高度相关的变量(模型中2对变量的和)。ρ = 0.978ρ=0.978\rho = 0.978ρ = 0.989ρ=0.989\rho = 0.989 的原因的一些变量是高度相关的,因为是一个变量的使用的计算为另一个变量。 例: B = V/ 3000B=V/3000B = V / 3000和 Ë= V* DE=V∗DE = V * D 乙BB和具有ËEEρ = 0.989ρ=0.989\rho = 0.989 我有可能只是“扔掉”其中一个变量吗?

3
如何将序数分类变量作为自变量处理
我正在使用Logit模型。我的因变量是二进制。但是,我有一个独立变量,该变量是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor。因此,它是序数(“定量分类”)。我不确定如何在模型中处理此问题。我正在使用gretl。 [@ttnphns的注:尽管问题说模型是logit的(因为因数是分类的),但关键问题-序数自变量-基本上是相同的,无论是分类还是定量的因数。因此,这个问题也与线性回归同样相关-与逻辑回归或其他logit模型一样。]

2
添加的变量图(部分回归图)在多元回归中有什么解释?
我有一个电影数据集模型,并使用了回归: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 给出了输出: 现在,我第一次尝试使用名为“添加的变量图”的方法,得到以下输出: car::avPlots(model, id.n=2, id.cex=0.7) 问题是我试图使用google理解添加的变量图,但是我无法理解它的深度,看到该图我理解了它基于与输出相关的每个输入变量的偏斜表示。 我能否获得更多细节,例如其如何证明数据规范化?


1
原始,对偶和内核岭回归之间的差异
Primal,Dual和Kernel Ridge回归有什么区别?人们正在使用这三种方法,并且由于每个人在不同来源使用的概念不同,因此我很难理解。 那么有人可以用简单的话告诉我这三个之间有什么区别吗?此外,每种技术都有哪些优点或缺点,其复杂性又是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.