Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


1
如何检验线性回归中分类变量的统计显着性?
如果在线性回归中我有分类变量...我怎么知道分类变量的静态意义? 假设因子X1X1个X_1有10个级别...在一个因子变量的保护下将有10个不同的最终t值X1X1X_1... 在我看来,是否对因子变量的每个水平都进行了统计意义检验?没有? @Macro:根据您的建议,我建立了以下示例: 通过下面的模型比较,似乎x3很有用,并且必须将其包括在模型中。 但是实际上那是错误的... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 + x3 Model 2: y ~ x1 + x2 Res.Df RSS Df Sum of Sq F Pr(>F) 1 …

1
线性回归系数的置信区间应基于正态分布还是
让我们有一些线性模型,例如简单的方差分析: # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) 结果如下: Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q Max -2.30047 …

2
线性回归中是否存在偏差方差折衷的图形表示?
我正在停电。为我提供了以下图片,以展示线性回归背景下的偏差方差折衷: 我可以看到,这两个模型都不是很好的拟合-“简单”不能理解XY关系的复杂性,而“复杂”只是过拟合,基本上是从心里学习训练数据。但是,我完全看不到这两张图片中的偏差和差异。有人可以告诉我吗? PS:对偏差方差折衷的直观解释的答案?并没有真正帮助我,如果有人可以根据上述图片提供其他方法,我将感到非常高兴。

2
测试系数之间的显着差异的正确方法是什么?
我希望有人能帮我解决一些困惑。假设我要测试2组回归系数是否显着不同,并进行以下设置: yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i,具有5个独立变量。 2组,大小大致相等,(尽管可能有所不同)n1,n2n1,n2n_1, n_2 数以千计的相似回归将同时完成,因此必须进行某种形式的多重假设校正。 向我建议的一种方法是使用Z检验: Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} 我在该板上看到的另一个建议是引入一个虚拟变量进行分组并将模型重写为: yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i,其中ggg是分组变量,编码为0、1。 我的问题是,这两种方法有何不同(例如做出不同的假设,灵活性)?一个比另一个合适吗?我怀疑这是非常基本的,但是任何澄清将不胜感激。

4
如果我想要一个可解释的模型,除了线性回归之外还有其他方法吗?
我遇到了一些统计学家,他们从未使用线性回归以外的模型进行预测,因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。 在线性回归中,假设已验证一组假设(误差的正态性,同方差,无多重共线性),则t检验提供了一种检验变量重要性的方法,据我所知随机森林或梯度增强模型。 因此,我的问题是,是否要使用一组自变量来建模因变量,为了便于解释,我是否应该始终使用线性回归?

1
LASSO假设
在LASSO回归方案中, y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon, LASSO估计值由以下优化问题给出 minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 是否有关于分布假设?ϵϵ\epsilon 在OLS场景中,人们会期望ϵϵ\epsilon是独立的并且是正态分布的。 在LASSO回归中分析残差是否有意义? 我知道LASSO估计可以作为\ beta_j的独立双指数先验下的后验模式获得βjβj\beta_j。但是我还没有找到任何标准的“假设检查阶段”。 提前致谢 (:



3
为什么不使用“正规方程”来找到简单的最小二乘系数呢?
我在这里看到了这个列表,简直不敢相信有这么多方法可以求解最小二乘。对“正规方程” 维基百科似乎是一个相当简单的方法 α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1ñ(X一世-X¯)(ÿ一世-ÿ¯)∑一世=1个ñ(X一世-X¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} 那么为什么不仅仅使用它们呢?考虑到Mark L.上面的第一个链接,我认为一定存在计算或精度问题。Stone提到SVD或QR是统计软件中流行的方法,并且正常方程式“从可靠性和数值精度的角度来看很麻烦”。但是,在下面的代码中,与三个流行的python函数相比,正则方程使我的精度达到了〜12个小数位:numpy的polyfit;西皮的罪过 ; 和scikit-learn的LinearRegression。 更有意思的是,当n = 100000000时,法线方程法最快。polyfit为12.9s;用于线性回归的4.2s;对于标准方程式为1.8秒。 码: import numpy as np from sklearn.linear_model import LinearRegression from scipy.stats import linregress import timeit b0 = 0 b1 = 1 n = 100000000 …

1
有同时进行L1和L2正则化(又称弹性网)的线性回归的贝叶斯解释吗?
众所周知,惩罚为线性回归等效于在系数上给出高斯先验后找到MAP估计。同样,使用l 1罚则等同于使用拉普拉斯分布作为先验。l2l2l^2l1l1l^1 使用和l 2正则化的一些加权组合并不罕见。我们是否可以说这等于系数上的某些先验分布(直觉上似乎必须如此)?我们可以给这个分布一个好的分析形式(也许是高斯和拉普拉斯的混合)吗?如果没有,为什么不呢?l1l1l^1l2l2l^2

2
为什么beta回归不能在响应变量中正确处理0和1?
通常建议使用beta回归(即具有beta分布的GLM,通常是logit链接函数)来处理响应aka因变量,其取值介于0和1之间,例如分数,比率或概率:结果的回归(比率或分数)在0和1之间。 但是,总是声称一旦响应变量至少等于0或1,就不能使用beta回归。如果是这样,则需要使用零/一膨胀的beta模型,或者对响应进行某种转换,等等。:Beta回归比例数据,包括1和0。 我的问题是:β分布的哪个属性阻止β回归处理精确的0和1,为什么? 我猜这是和不支持beta发行版的原因。但是对于所有形状参数和,零和一个都支持beta分布,只有较小的形状参数的分布在一侧或两侧达到无穷大。也许样本数据使得提供最佳拟合的和都将大于。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 这是否意味着在某些情况下,即使使用零/ 一,实际上也可以使用beta回归吗? 当然,即使0和1支持beta分布,准确观察0或1的概率也为零。但是观察其他给定可计数值集合的可能性也是如此,所以这不是问题吗?(参见@Glen_b的评论)。 \hskip{8em} 在beta回归的上下文中,beta分布的参数设置不同,但是对于,对于所有,仍应在进行明确定义。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

2
回归分析和曲线拟合之间的区别
有人可以向我解释回归分析和曲线拟合(线性和非线性)之间的实际差异,并举个例子吗? 似乎两者都试图找到两个变量(因变量与独立变量)之间的关系,然后确定与所提出的模型相关的参数(或系数)。例如,如果我有一组数据,例如: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 有人可以建议这两个变量之间的相关公式吗?我很难理解这两种方法之间的区别。如果您希望用其他数据集来支持您的答案,那是可以的,因为那似乎很难适应(也许仅对我而言)。 上面的数据集代表接收器工作特性(ROC)曲线的和y轴,其中y是真实的阳性率(TPR),x是错误的阳性率(FPR)。xxxyyyyyyxxx 我正在尝试拟合曲线,或者根据我最初的问题(还不确定)进行回归分析,以估计任何特定FPR的TPR(反之亦然)。 首先,在两个自变量(TPR和FPR)之间找到这样的曲线拟合函数在科学上是否可以接受? 第二,如果我知道实际否定案例和实际肯定案例的分布不正常,找到这样的函数在科学上是可以接受的吗?

1
如何计算黄土的预测间隔?
我有一些数据是使用R中的LOESS模型拟合的,给了我这个: 数据具有一个预测变量和一个响应,并且是异方差的。 我还添加了置信区间。问题在于间隔是该行的置信区间,而我对预测间隔感兴趣。例如,底部面板比顶部面板更具可变性,但是不会在间隔中捕获。 这个问题有点相关: 从多项式回归中了解置信带,尤其是@AndyW的答案,但是在他的示例中,他使用了interval="predict"中存在的相对简单的论点predict.lm,但从中没有predict.loess。 所以我有两个非常相关的问题: 如何获得LOESS的逐点预测间隔? 我如何预测将捕获该间隔的值,即生成一堆最终看起来看起来像原始数据的随机数? 我可能不需要黄土,应该使用其他东西,但是我不熟悉我的选择。基本上,它应该使用局部回归或多元线性回归来拟合线,从而为线提供误差估计,此外,还为不同的解释变量提供了不同的方差,因此我可以在某些x值处预测响应变量(y)的分布。

1
Logistic回归中的遗漏变量偏差与普通最小二乘回归中的遗漏变量偏差
我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。 说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。 但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。 这是论文和一些幻灯片。 偏差显然总是朝着零。谁能解释这是如何工作的?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.