统计和大数据 regression

4

我正在执行多元回归分析，不确定是否应该删除数据中的异常值。我关注的数据在SPSS箱形图上显示为“圆圈”，但是没有星号（这使我认为它们并不“糟糕”）。我关注的案例确实出现在输出的“案例诊断”表下-因此我应该删除这些案例吗？

23 regression outliers

3

该问题是从Stack Overflow 迁移而来的，因为可以通过交叉验证来回答。迁移 3年前。在统计数据中，我们正在进行线性回归，即线性回归。总的来说，我们知道越高越好，但是有没有一种场景，其中高将是无用的模型？R2R2R^2R2R2R^2

23 regression r-squared

2

随机森林进行多元回归

我有一个输入和输出的多输出回归问题。输出具有复杂的非线性相关结构。dxdxd_xdydyd_y 我想使用随机森林进行回归。据我所知，用于回归的随机森林仅适用于单个输出，因此我将必须训练随机森林-每个输出一个。这忽略了它们的相关性。dydyd_y 是否有将输出相关性考虑在内的随机森林扩展？也许类似高斯过程回归的多任务学习。

23 regression multivariate-analysis random-forest

7

根据三个百分点估算分布

如果我只知道三个百分点，可以使用哪些方法来推断分布？例如，我知道在某个数据集中，第五个百分位数是8,135，第50个百分位数是11,259，第95个百分位数是23,611。我希望能够从任何其他数字提高到其百分位数。这不是我的数据，而这些都是我的全部统计数据。很明显，分布不正常。我仅有的其他信息是，该数据代表政府为不同学区提供的人均经费。我对统计数据了解得足够多，无法知道这个问题没有确定的解决方案，但是对于知道如何找到正确的猜测还不够。对数正态分布是否合适？我可以使用哪些工具执行回归（或者我需要自己进行回归）？

23 r regression quantiles

2

在弹性净回归中，为什么lambda“与最小值之间的标准误差之内”是lambda的推荐值？

我了解lambda在弹性净回归中扮演什么角色。而且我可以理解为什么要选择lambda.min，即将交叉验证错误最小化的lambda值。我的问题是在统计资料中建议在哪里使用lambda.1se，即lambda的值可将CV误差加一个标准误差减到最小？我似乎找不到正式的引文，甚至找不到为什么这通常很有价值的原因。我知道这是一个限制性更强的正则化方法，会将参数进一步缩小为零，但我并不总是确定lambda.1se比lambda.min更好的选择。有人可以帮忙解释一下吗？

23 regression cross-validation regularization glmnet elastic-net

6

处理相关回归变量

在具有高度相关的回归变量的多元线性回归中，最佳方法是使用什么？添加所有相关回归变量的乘积是否合法？

23 regression multicollinearity

1

网桥惩罚与Elastic Net正则化

很好地研究了一些罚函数和近似值，例如LASSO（）和Ridge（）以及它们如何进行回归比较。L1L1L_1L2L2L_2 我一直在阅读有关Bridge惩罚的信息，即广义惩罚。将其与具有\ gamma = 1的LASSO 和具有\ gamma = 2的Ridge进行比较，使其成为特殊情况。 γ = 1 γ = 2∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]将\ gamma \ geq 1时的Bridge惩罚γ≥1γ≥1\gamma \geq 1与LASSO进行了比较，但是我找不到与LASSO和Ridge惩罚相结合的弹性网正则化的比较，给出为∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}。这是一个有趣的问题，因为Elastic Net和此特定的Bridge具有相似的约束形式。使用不同的度量比较这些单位圆（ppp是Minkowski距离的幂）： p=1p=1p = 1对应于LASSO，p=2p=2p = 2对应于Ridge，p=1.4p=1.4p = 1.4于一个可能的网桥。弹性网在L1L1L_1和L2L2L_2罚分上具有相等的权重。例如，这些数字可用于识别稀疏性（Bridge明显缺少稀疏性，而Elastic Net将其保存在LASSO中）。那么在正则化（稀疏性除外）方面，具有1 <\ gamma <2的Bridge与1<γ<21<γ<21<\gamma <2Elastic Net相比如何？我对监督学习特别感兴趣，因此也许有关特征选择/加权的讨论是适当的。也欢迎几何论证。也许更重要的是，在这种情况下，Elastic Net是否总是更理想？ …

22 regression lasso regularization ridge-regression elastic-net

5

当A和B是正相关的变量时，它们是否会对结果变量C产生相反的影响？

A与B正相关。 C是A和B的结果，但A对C的影响为负，而B对C的影响为正。这会发生吗？

22 regression correlation

2

为什么拉普拉斯事前生产稀疏解决方案？

我浏览了有关正则化的文献，经常看到一些段落将L2重新调节与高斯先验联系起来，将L1与拉普拉斯联系起来的中心是零。我知道这些先验的样子，但我不知道它如何转换为线性模型中的权重。在L1中，如果我理解正确，我们期望稀疏解，即某些权重将被精确地推为零。在L2中，我们获得较小的权重，但没有获得零权重。但是为什么会发生呢？如果需要提供更多信息或阐明我的思路，请发表评论。

22 regression bayesian prior regularization laplace-distribution

2

最小二乘回归逐步线性代数计算

作为有关R中线性混合模型的问题的前传，并作为初学者/中级统计爱好者的参考，我决定以独立的“问答式”形式发布“手动”计算简单线性回归的系数和预测值。该示例使用R内置数据集，mtcars并将其设置为充当自变量的车辆所消耗的每加仑英里数，并根据汽车的重量（连续变量）进行回归，并将汽缸数作为没有相互作用的三个水平（4、6或8）的因子。编辑：如果您对此问题感兴趣，您肯定会在CV之外的Matthew Drury的这篇帖子中找到详细而令人满意的答案。

22 r regression linear-model lm

2

什么是“降秩回归”？

我一直在阅读《统计学习的要素》，但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR（降秩回归），我只能理解前提是关于一个广义多元线性模型，该模型的系数未知（需要估算），但已知其不具有完整的秩。那是我唯一的了解。其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。有人可以帮忙直观地解释这里发生的事情吗？本章是否应该讨论新方法？或者是什么？

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

2

R中的引导实际上如何工作？

我一直在研究R中的引导程序包，尽管我找到了很多有关如何使用它的入门知识，但我还没有找到任何能够准确描述“幕后”情况的信息。例如，在此示例中，指南显示了如何使用标准回归系数作为引导程序回归的起点，但没有说明引导程序实际上在做什么以得出引导程序回归系数。似乎正在发生某种迭代过程，但我似乎无法弄清楚到底发生了什么。

22 r regression bootstrap regression-coefficients

2

形式为

我有一个来自网络讨论论坛的统计数据集。我正在查看一个主题期望得到的答复数量的分布。特别是，我创建了一个数据集，该数据集包含主题答复计数列表，然后包含具有该答复数目的主题计数。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 如果我将数据集绘制在对数-对数图上，那么我得到的基本上是一条直线：（这是一个Zipfian分布）。Wikipedia告诉我，对数对数图上的直线表示可以用形式的单项式建模的函数。实际上，我已经关注了这样的功能：ÿ= 一个Xķÿ=一种Xķy = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 我的眼球显然不如R准确。那么如何使R更精确地适合我的模型参数呢？我尝试了多项式回归，但是我不认为R试图将指数作为参数拟合-我想要的模型的专有名称是什么？编辑：谢谢大家的回答。如建议的那样，我现在使用以下配方针对输入数据的日志拟合线性模型： data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first 100 …

22 r regression nonlinear-regression

3

处理大，小问题时的模型稳定性

介绍：我有一个经典的“大p，小n问题”数据集。可用样本数n = 150，而可能的预测变量数p = 400。结果是一个连续变量。我想找到最“重要”的描述符，即那些最能解释结果并帮助建立理论的描述符。经过对该主题的研究，我发现LASSO和Elastic Net通常用于大p小n的情况。我的一些预测变量具有高度相关性，因此我想在重要性评估中保留它们的分组，因此，我选择使用Elastic Net。我想我可以使用回归系数的绝对值来衡量重要性（如果我错了，请纠正我；我的数据集是标准化的）。问题：由于样本数量少，如何获得稳定的模型？我目前的方法是在90％的数据集上以10倍的交叉验证平均MSE分数在网格搜索中找到最佳调整参数（λ和alpha）。然后，我在整个数据集的90％上使用最佳调整参数训练模型。我可以在数据集的10％保留率（仅占15个样本）上使用R平方来评估我的模型。反复运行此过程，我发现R平方评估存在很大差异。同样，非零预测变量的数量及其系数也会变化。如何获得对预测变量重要性的更稳定评估以及对最终模型性能的更稳定评估？我可以重复运行我的程序来创建多个模型，然后平均回归系数吗？还是应该使用模型中预测变量的出现次数作为其重要性得分？目前，我得到40-50个非零预测变量。为了更好的稳定性，我应该更严厉地惩罚一些预测变量吗？

22 regression cross-validation model-selection feature-selection elastic-net

4

在考虑变量之间的相互作用的情况下，为什么线性回归和方差分析会给出不同的值？

我试图使用回归模型拟合一个时间序列数据（无重复项）。数据如下所示： > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 8.118308 24 1 …

22 r regression statistical-significance anova p-value

Questions tagged «regression»