Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


1
Newey-West(1987)和Hansen-Hodrick(1980)的比较
问题:使用Newey-West(1987)和Hansen-Hodrick(1980)标准错误之间的主要区别和相似之处是什么?在哪些情况下应优先选择其中一种? 笔记: 我确实知道每个调整程序如何工作;但是,无论是在网上还是在我的教科书中,我还没有找到可以比较它们的文档。欢迎参考! Newey-West往往被用作“包罗万象”的HAC标准错误,而Hansen-Hodrick经常在数据点重叠的情况下出现(例如,请参见此问题或此问题)。因此,我的问题的一个重要方面是,关于Hansen-Hodrick的事情是否比Newey-West 更适合处理重叠数据?(毕竟,重叠的数据最终会导致与序列相关的错误术语,Newey-West也要处理。) 作为记录,我知道这个类似的问题,但是它提出的条件相对较差,被否决了,最终我所问的问题没有得到回答(仅与编程相关的部分得到了回答)。

2
逻辑回归的矩阵符号
在线性回归(平方损失)中,使用矩阵,我们对目标有一个非常简洁的表示法 minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 其中AAA是数据矩阵,xxx是系数,bbb是响应。 Logistic回归目标是否有类似的矩阵符号?我见过的所有符号都不能消除所有数据点的总和(像∑dataLlogistic(y,βTx)∑dataLlogistic(y,βTx)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx))。 编辑:感谢joceratops和AdamO的出色回答。他们的回答使我意识到线性回归具有更简洁的表示法的另一个原因是因为规范的定义封装了平方和或。但是在逻辑损失中,没有这样的定义,这使表示法有点复杂。e⊤ee⊤ee^\top e

2
R中的逐步回归-如何运作?
我正在尝试使用阶跃函数来理解R中逐步回归和向后回归之间的基本区别。对于逐步回归,我使用了以下命令 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") 对于以上代码,我得到了以下输出。 对于后向变量选择,我使用了以下命令 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") 我得到以下输出以供后退 据我所知,当未指定任何参数时,除非在R中指定了参数“ upper”和“ lower”,否则逐步选择将作为向后选择。但是,在逐步选择的输出中,会在+中添加+ disp第二步。通过在逐步选择中再次添加+ disp来实现的功能是什么?为什么R在第二步中加上+ disp,而结果却与向后选择相同(AIC值和模型选择值)。R在逐步选择中如何工作? 我真的很想了解此功能在R中的工作方式。在此先感谢您的帮助!
15 r  regression 

3
我们真的需要包括“所有相关的预测变量”吗?
使用回归模型进行推理的基本假设是,“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差,从而导致推论不准确(即省略了可变偏差)。 但是,在研究实践中,我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因,要把它们全部包括在内,将是非常困难的,即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果:没有人建立类似于“所有相关变量”的模型的任何东西:例如,父母的历史,人格特质,社会支持,收入,他们的互动等,等等... 此外,除非有非常大的样本量,否则拟合这样一个复杂的模型将导致高度不稳定的估计。 我的问题很简单:“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思?如果不是,那么我们为什么要提供它作为实际的建模建议? 这是否意味着大多数系数可能会产生误导?(例如,仅使用几种预测因子的人格因素和抑郁症研究)。换句话说,对于我们的科学结论而言,这有多大的问题?

3
对于线性分类器,更大的系数是否意味着更重要的特征?
我是从事机器学习的软件工程师。根据我的理解,线性回归(例如OLS)和 线性分类(例如对数回归和SVM)基于已训练系数 和特征变量→ x之间的内积进行预测:w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 我的问题是:训练模型后(即在计算系数之后),对于对于模型更准确地预测更重要的特征变量,系数是否会变大?wiwiw_i 换句话说,我想问的是,仅通过按系数值对变量排序,然后选择系数最高的特征,是否可以将系数的相对大小用于特征选择?如果此方法有效,那么为什么不选择功能(以及包装器和过滤器方法等)。 我之所以这样问,是因为我遇到了关于L1与L2正则化的讨论。有一个说明说: 经常提到内置特征选择是L1规范的有用属性,而L2规范则没有。这实际上是L1范数的结果,它倾向于产生稀疏系数(如下所述)。假设该模型有100个系数,但其中只有10个具有非零系数,这实际上是在说“其他90个预测变量对预测目标值无用”。 在两行之间阅读时,我猜想如果系数接近0,则具有该系数的特征变量的预测力必须很小。 编辑:我也将z缩放应用于我的数字变量。


3
样条曲线与高斯过程回归
我知道高斯过程回归(GPR)是使用样条曲线拟合弹性非线性模型的替代方法。我想知道哪种情况比另一种情况更合适,尤其是在贝叶斯回归框架中。 我已经看过使用样条线,平滑样条线和高斯过程仿真器的优点/缺点是什么?但这篇文章中似乎没有关于GPR的任何内容。

1
从多个线性模型直观呈现关系的最佳方法
我有一个带有约6个预测变量的线性模型,我将介绍估计值,F值,p值等。但是,我想知道哪种可视化图最好地代表单个预测变量对响应变量?散点图?条件图?效果图?等等?我将如何解释该情节? 我将在R中进行此操作,因此,如果可以的话,请随时提供示例。 编辑:我主要关心呈现任何给定的预测变量和响应变量之间的关系。

2
如何在R中使用效果编码而不是伪编码进行回归?
我目前正在开发一个回归模型,其中我仅将分类/因子变量作为自变量。我的因变量是对数转换比率。 只需在R中运行正常回归就相当容易,因为R一旦它们成为“ factor”类型,R就会自动知道如何编写假人。但是,这种类型的编码还意味着将每个变量的一个类别用作基线,这使其难以解释。 我的教授告诉我,请改用效果编码(-1或1),因为这意味着对截距使用了均值。 有人知道如何处理吗? 到目前为止,我尝试过: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts …



4
在R中添加观测值和/或预测变量时,有效地更新线性回归
我想在R中找到一种方法,以便在添加观察值或预测变量时有效地更新线性模型。在添加观察值时,biglm具有更新功能,但是我的数据足够小以驻留在内存中(尽管我确实有大量实例需要更新)。有一些方法可以赤手空拳,例如,更新QR因式分解(请参阅Hammarling和Lucas的“更新QR因式分解和最小二乘问题”),但我希望有一个现有的实现。

3
何时使用GAM与GLM
我意识到这可能是一个潜在的广泛问题,但我想知道是否存在可概括的假设,表明使用GAM(广义附加模型)而不是GLM(广义线性模型)? 最近有人告诉我,仅当我认为数据结构是“可加的”时才应使用GAM,即我期望x的加法能够预测y。另一个人指出,GAM与GLM进行的回归分析类型不同,当可以假定线性时,首选GLM。 过去,我一直使用GAM来获取生态数据,例如: 连续时间序列 当数据不具有线性形状时 我有多个x来预测y,以为我认为我可以使用“表面曲线”和统计检验来可视化某些非线性相互作用 对于GAM与GLM的不同之处,我显然不了解。我认为这是一个有效的统计检验,(而且我看到GAM的使用有所增加,至少在生态期刊中如此),但是我需要比其他回归分析更好地了解何时使用了GAM。

2
计算逻辑回归的置信区间
我正在使用二项式逻辑回归来确定是否暴露has_x或has_y影响用户点击某事的可能性。我的模型如下: fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) 这是我模型的输出: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.504737 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.