统计和大数据 regression

4

我读过统计学习中最受欢迎的书 1- 统计学习的要素。 2- 统计学习简介。两者都提到岭回归有两个等价的公式。有没有可以理解的数学证明呢？我还经历了交叉验证，但在那里找不到确定的证明。此外，LASSO是否会享受相同类型的证明？

15 regression lasso regularization ridge-regression lagrange-multipliers

1

Newey-West（1987）和Hansen-Hodrick（1980）的比较

问题：使用Newey-West（1987）和Hansen-Hodrick（1980）标准错误之间的主要区别和相似之处是什么？在哪些情况下应优先选择其中一种？笔记：我确实知道每个调整程序如何工作；但是，无论是在网上还是在我的教科书中，我还没有找到可以比较它们的文档。欢迎参考！ Newey-West往往被用作“包罗万象”的HAC标准错误，而Hansen-Hodrick经常在数据点重叠的情况下出现（例如，请参见此问题或此问题）。因此，我的问题的一个重要方面是，关于Hansen-Hodrick的事情是否比Newey-West 更适合处理重叠数据？（毕竟，重叠的数据最终会导致与序列相关的错误术语，Newey-West也要处理。）作为记录，我知道这个类似的问题，但是它提出的条件相对较差，被否决了，最终我所问的问题没有得到回答（仅与编程相关的部分得到了回答）。

15 regression autocorrelation heteroscedasticity robust-standard-error neweywest

2

逻辑回归的矩阵符号

在线性回归（平方损失）中，使用矩阵，我们对目标有一个非常简洁的表示法 minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 其中AAA是数据矩阵，xxx是系数，bbb是响应。 Logistic回归目标是否有类似的矩阵符号？我见过的所有符号都不能消除所有数据点的总和（像∑dataLlogistic(y,βTx)∑dataLlogistic(y,βTx)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)）。编辑：感谢joceratops和AdamO的出色回答。他们的回答使我意识到线性回归具有更简洁的表示法的另一个原因是因为规范的定义封装了平方和或。但是在逻辑损失中，没有这样的定义，这使表示法有点复杂。e⊤ee⊤ee^\top e

15 regression logistic linear-model notation

2

R中的逐步回归-如何运作？

我正在尝试使用阶跃函数来理解R中逐步回归和向后回归之间的基本区别。对于逐步回归，我使用了以下命令 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") 对于以上代码，我得到了以下输出。对于后向变量选择，我使用了以下命令 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") 我得到以下输出以供后退据我所知，当未指定任何参数时，除非在R中指定了参数“ upper”和“ lower”，否则逐步选择将作为向后选择。但是，在逐步选择的输出中，会在+中添加+ disp第二步。通过在逐步选择中再次添加+ disp来实现的功能是什么？为什么R在第二步中加上+ disp，而结果却与向后选择相同（AIC值和模型选择值）。R在逐步选择中如何工作？我真的很想了解此功能在R中的工作方式。在此先感谢您的帮助！

15 r regression

3

我们真的需要包括“所有相关的预测变量”吗？

使用回归模型进行推理的基本假设是，“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差，从而导致推论不准确（即省略了可变偏差）。但是，在研究实践中，我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因，要把它们全部包括在内，将是非常困难的，即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果：没有人建立类似于“所有相关变量”的模型的任何东西：例如，父母的历史，人格特质，社会支持，收入，他们的互动等，等等... 此外，除非有非常大的样本量，否则拟合这样一个复杂的模型将导致高度不稳定的估计。我的问题很简单：“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思？如果不是，那么我们为什么要提供它作为实际的建模建议？这是否意味着大多数系数可能会产生误导？（例如，仅使用几种预测因子的人格因素和抑郁症研究）。换句话说，对于我们的科学结论而言，这有多大的问题？

15 regression assumptions bias predictor confounding

3

对于线性分类器，更大的系数是否意味着更重要的特征？

我是从事机器学习的软件工程师。根据我的理解，线性回归（例如OLS）和线性分类（例如对数回归和SVM）基于已训练系数和特征变量→ x之间的内积进行预测：w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 我的问题是：训练模型后（即在计算系数之后），对于对于模型更准确地预测更重要的特征变量，系数是否会变大？wiwiw_i 换句话说，我想问的是，仅通过按系数值对变量排序，然后选择系数最高的特征，是否可以将系数的相对大小用于特征选择？如果此方法有效，那么为什么不选择功能（以及包装器和过滤器方法等）。我之所以这样问，是因为我遇到了关于L1与L2正则化的讨论。有一个说明说：经常提到内置特征选择是L1规范的有用属性，而L2规范则没有。这实际上是L1范数的结果，它倾向于产生稀疏系数（如下所述）。假设该模型有100个系数，但其中只有10个具有非零系数，这实际上是在说“其他90个预测变量对预测目标值无用”。在两行之间阅读时，我猜想如果系数接近0，则具有该系数的特征变量的预测力必须很小。编辑：我也将z缩放应用于我的数字变量。

15 regression machine-learning classification feature-selection linear-model

1

我有一条最适合的路线。我需要的数据点不会改变我的最佳拟合线

我正在做关于装配线的演讲。我有一个简单的线性函数y=1x+by=1x+by=1x+b。我试图获取分散的数据点，然后将其放置在散点图中，以使我的最佳拟合线保持不变。我很想在R或Excel中学习这项技术-以较容易的为准。

15 r regression least-squares excel

3

样条曲线与高斯过程回归

我知道高斯过程回归（GPR）是使用样条曲线拟合弹性非线性模型的替代方法。我想知道哪种情况比另一种情况更合适，尤其是在贝叶斯回归框架中。我已经看过使用样条线，平滑样条线和高斯过程仿真器的优点/缺点是什么？但这篇文章中似乎没有关于GPR的任何内容。

15 regression gaussian-process splines kriging

1

从多个线性模型直观呈现关系的最佳方法

我有一个带有约6个预测变量的线性模型，我将介绍估计值，F值，p值等。但是，我想知道哪种可视化图最好地代表单个预测变量对响应变量？散点图？条件图？效果图？等等？我将如何解释该情节？我将在R中进行此操作，因此，如果可以的话，请随时提供示例。编辑：我主要关心呈现任何给定的预测变量和响应变量之间的关系。

15 r regression data-visualization multiple-regression partial-plot

2

如何在R中使用效果编码而不是伪编码进行回归？

我目前正在开发一个回归模型，其中我仅将分类/因子变量作为自变量。我的因变量是对数转换比率。只需在R中运行正常回归就相当容易，因为R一旦它们成为“ factor”类型，R就会自动知道如何编写假人。但是，这种类型的编码还意味着将每个变量的一个类别用作基线，这使其难以解释。我的教授告诉我，请改用效果编码（-1或1），因为这意味着对截距使用了均值。有人知道如何处理吗？到目前为止，我尝试过： gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts …

15 r regression categorical-data categorical-encoding

2

多元线性回归用于假设检验

我熟悉使用多个线性回归来创建各种变量的模型。但是，我很好奇是否曾经使用回归测试来进行任何类型的基本假设测试。如果是这样，这些方案/假设是什么样的？

15 regression hypothesis-testing multiple-regression

2

如果我在线性回归模型中重复每个样本观察值，然后重新运行回归，将如何影响结果？

假设我有N个观测值，可能是多个因素，并且我将每个观测值重复两次（或M次），那么对于这组新的NM大小的回归与仅对原始观测值的回归相比会如何？

15 regression linear-model multiple-regression

4

在R中添加观测值和/或预测变量时，有效地更新线性回归

我想在R中找到一种方法，以便在添加观察值或预测变量时有效地更新线性模型。在添加观察值时，biglm具有更新功能，但是我的数据足够小以驻留在内存中（尽管我确实有大量实例需要更新）。有一些方法可以赤手空拳，例如，更新QR因式分解（请参阅Hammarling和Lucas的“更新QR因式分解和最小二乘问题”），但我希望有一个现有的实现。

15 r regression computational-statistics linear-model

3

何时使用GAM与GLM

我意识到这可能是一个潜在的广泛问题，但我想知道是否存在可概括的假设，表明使用GAM（广义附加模型）而不是GLM（广义线性模型）？最近有人告诉我，仅当我认为数据结构是“可加的”时才应使用GAM，即我期望x的加法能够预测y。另一个人指出，GAM与GLM进行的回归分析类型不同，当可以假定线性时，首选GLM。过去，我一直使用GAM来获取生态数据，例如：连续时间序列当数据不具有线性形状时我有多个x来预测y，以为我认为我可以使用“表面曲线”和统计检验来可视化某些非线性相互作用对于GAM与GLM的不同之处，我显然不了解。我认为这是一个有效的统计检验，（而且我看到GAM的使用有所增加，至少在生态期刊中如此），但是我需要比其他回归分析更好地了解何时使用了GAM。

15 regression generalized-linear-model gam

2

计算逻辑回归的置信区间

我正在使用二项式逻辑回归来确定是否暴露has_x或has_y影响用户点击某事的可能性。我的模型如下： fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) 这是我模型的输出： Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.504737 …

15 regression logistic standard-error logit

Questions tagged «regression»