Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
Hosmer-Lemeshow测试中的自由度
逻辑回归模型的Hosmer-Lemeshow检验(HLT)的拟合优度(GOF)的检验统计量定义如下: 然后将样本分为十分位数,每十分位数计算以下数量:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i,即中观察到的阳性病例;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i),即在观察到的否定案例;DdDdD_d E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i,即,十分位数中阳性案例的估计数;DdDdD_d E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i),即,十分位数中否定情况的估计数量;DdDdD_d 其中是第个观测值的观测二进制结果,是该观测值的估计概率。我yiyiy_iiiiπ^iπ^i\hat{\pi}_i 然后将测试统计量定义为: X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g−−−−−−−−−−√)2,X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g)2,X^2 = \displaystyle \sum_{h=0}^{1} \sum_{g=1}^d \left( \frac{(O_{hg}-E_{hg})^2}{E_{hg}} \right)= \sum_{g=1}^d \left( \frac{ O_{1g} - n_g \hat{\pi}_g}{\sqrt{n_g (1-\hat{\pi}_g) \hat{\pi}_g}} \right)^2, 其中π^Gπ^G\hat{\pi}_g是在等分的平均估计的概率GGg和让ñGñGn_g是公司在等分的数量。 根据Hosmer-Lemeshow(请参阅此链接),此统计数据(在某些假设下)具有χ2χ2\chi^2分布,自由度为(d− 2 …

4
(为什么)过拟合模型的系数往往较大?
我认为变量的系数越大,模型在该维度上“摆动”的能力就越强,从而增加了拟合噪声的机会。尽管我认为我对模型中的方差与大系数之间的关系有一个合理的认识,但是我对为什么它们出现在过拟合模型中却没有很好的认识。说它们是过度拟合的症状是不正确的,系数收缩更是一种减少模型方差的技术吗?通过系数收缩进行正则化的原理似乎是:大系数是过度拟合模型的结果,但也许我误解了该技术背后的动机。 我的直觉是大系数通常是过度拟合的症状,来自以下示例: 假设我们要拟合全部位于x轴上的个点。我们可以很容易地构造一个多项式,其解为这些点:。假设我们的点位于。该技术给出所有大于等于10的系数(一个系数除外)。随着我们添加更多点(从而增加多项式的次数),这些系数的大小将迅速增加。f (x )= (x − x 1)(x − x 2)。。。。(X - X ñ - 1)(X - X Ñ)X = 1 ,2 ,3 ,4ññnF(x )= (x − x1个)(x − x2)。。。。(x − xn − 1)(x − xñ)F(X)=(X-X1个)(X-X2)。。。。(X-Xñ-1个)(X-Xñ)f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)X = 1 ,2 ,3 ,4X=1个,2,3,4x=1,2,3,4 这个示例是我当前如何将模型系数的大小与生成的模型的“复杂性”联系起来的方式,但是我担心这种情况对于实际显示行为是不正确的。我特意建立了一个过拟合模型(对二次抽样模型生成的数据进行了10次多项式OLS拟合),并惊讶地发现模型中的系数很小: set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) …

1
L1正则化的回归与套索是否相同,L2正则化的回归与岭回归是否相同?以及如何写“套索”?
我是一名学习机器学习的软件工程师,尤其是通过Andrew Ng的机器学习课程学习机器学习。在研究带有正则化的线性回归时,我发现令人困惑的术语: 使用L1正则化或L2正则化进行回归 套索 岭回归 所以我的问题是: L1正则化的回归与LASSO完全相同吗? L2正则化的回归与Ridge回归完全相同吗? LASSO是如何写作的?应该是“ LASSO回归”吗?我见过类似“ 套索更合适 ”的用法。 如果以上1和2的答案是“是”,那么为什么这两个术语有不同的名称?“ L1”和“ L2”是否来自计算机科学/数学,而“ LASSO”和“ Ridge”是否来自统计? 当我看到类似以下内容的帖子时,这些术语的使用会造成混淆: “ L1和L2正则化有什么区别? ”(quora.com) “ 什么时候应该使用套索vs岭? ”(stats.stackexchange.com)


2
了解线性回归的形状和置信带的计算
我试图了解与OLS线性回归相关联的置信带的曲线形状的起源,以及它与回归参数(斜率和截距)的置信区间之间的关系,例如(使用R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) 似乎该频带与使用2.5%截距和97.5%斜率以及97.5%截距和2.5%斜率计算的线的极限有关(尽管不完全相同): xnew <- seq(0,400) int <- confint(fit) lines(xnew, (int[1,2]+int[2,1]*xnew)) lines(xnew, (int[1,1]+int[2,2]*xnew)) 我不明白的是两件事: 2.5%斜率和2.5%截距以及97.5%斜率和97.5%截距的组合怎么样?这些给出的线显然在上面绘制的带之外。也许我不了解置信区间的含义,但是如果在95%的情况下,我的估计值都在置信区间内,那么这似乎是可能的结果? 是什么决定上限和下限之间的最小距离(即,接近在上方添加的两条线相交的点)? 我猜这两个问题都会出现,因为我不知道/不了解这些频段的实际计算方式。 如何使用回归参数的置信区间来计算上限和下限(不依赖predict()或类似函数,即手动)?我试图破译R中的prepare.lm函数,但是编码超出了我的范围。对于任何适合统计初学者的相关文献或解释,我将不胜感激。 谢谢。

2
偏最小二乘回归背后的理论
谁能为了解SVD和PCA的人推荐一个关于偏最小二乘回归背后的理论的很好的解释(可在线获得)?我在网上查看了许多资料,但没有找到将严谨性和可访问性完美结合的任何内容。 我研究了《统计学习的要素》,这是在对交叉验证提出的一个问题的评论中提出的,什么是偏最小二乘(PLS)回归?它与OLS有何不同?,但我认为该参考文献并未涉及“正义”这一主题(这样做太简短了,并且没有提供关于该主题的太多理论)。从我读过,PLS利用预测变量,的线性组合zi=Xφizi=Xφiz_i=X \varphi_i协方差最大化yTziyTzi y^Tz_i 受约束∥φi∥=1‖φi‖=1\|\varphi_i\|=1和zTizj=0ziTzj=0z_i^Tz_j=0 if i≠ji≠ji \neq j, where the φiφi\varphi_i are chosen iteratively, in the order in which they maximize the covariance. But even after all I've read, I'm still uncertain whether that is true, and if so, how the method is executed.

4
为什么在多项式回归中使用正则化而不是降低度数?
例如,在进行回归时,要选择的两个超参数通常是函数的容量(例如多项式的最大指数)和正则化量。我感到困惑的是,为什么不只选择一个低容量函数,然后忽略任何正则化?这样,它不会过拟合。如果我同时具有高容量功能和正则化功能,那是否与低容量功能和无正则化功能一样?


1
为什么R返回NA作为lm()系数?
我正在lm()为包含财务季度指标(第一季度,第二季度,第三季度,使第四季度成为默认指标)的数据集拟合模型。使用lm(Y~., data = data),我得到a NA作为Q3的系数,并警告说一个变量由于奇异而被排除。 我是否需要添加Q4列?
32 r  regression 


1
“确定系数”和“均方误差”之间有什么区别?
对于回归问题,我已经看到人们使用“确定系数”(aka R平方)执行模型选择,例如,找到适当的惩罚系数以进行正则化。 但是,通常也使用“均方误差”或“均方根误差”作为回归精度的量度。 那么,这两者之间的主要区别是什么?是否可以将它们互换用于“规范化”和“回归”任务?每种方法在实践中的主要用途是什么,例如在机器学习,数据挖掘任务中?

1
回归的CNN架构?
我一直在研究回归问题,其中输入是图像,标签是80到350之间的连续值。图像是发生反应后的某些化学物质。原来的颜色表示剩余的另一种化学品的浓度,这就是模型要输出的-该化学品的浓度。图像可以旋转,翻转,镜像,并且预期的输出应该仍然相同。这种分析是在真实的实验室中完成的(非常专业的机器使用颜色分析来输出化学药品的浓度,就像我正在训练该模型一样)。 到目前为止,我仅试验了大致基于VGG(conv-conv-conv-pool块的多个序列)的模型。在尝试使用较新的体系结构(Inception,ResNets等)之前,我想研究一下是否存在其他更常用的图像回归体系结构。 数据集如下所示: 该数据集包含约5,000个250x250样本,我将其大小调整为64x64,因此训练更加容易。一旦找到有前途的体系结构,我将尝试更大分辨率的图像。 到目前为止,我的最佳模型在训练集和验证集上的均方误差约为0.3,这在我的用例中还远远不能接受。 到目前为止,我最好的模型如下所示: // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

2
逻辑回归:Scikit学习与统计模型
我试图理解为什么这两个库的逻辑回归的输出会给出不同的结果。 我使用从加州大学洛杉矶分校idre数据集教程,预测admit基础上gre,gpa和rank。rank被视为分类变量,因此先将其rank_1删除后转换为虚拟变量。还添加了一个拦截列。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

2
OLS线性回归中的成本函数
我对Andrew Ng在Coursera上关于机器学习的线性回归讲座感到有些困惑。在那里,他给出了一个成本函数,该函数将平方和最小化为: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 我知道1212\frac{1}{2}来自。我认为他这样做是为了使他在平方项上执行导数时,平方项中的2将被一半抵消。但我不知道来源。1m1m\frac{1}{m} 为什么我们需要做?在标准线性回归中,我们没有它,我们只是将残差最小化。为什么在这里需要它?1m1m\frac{1}{m}

1
负二项式回归问题-模型是否较差?
我正在阅读Sellers和Shmueli撰写的关于计数数据回归模型的非常有趣的文章。在开始时(第944页),他们援引McCullaugh和Nelder(1989)的话说负二项式回归不受欢迎,并且在规范上存在问题。我找到了提到的段落,并说(M和N的第374页) “在应用程序中似乎很少使用负二项式分布;特别是,规范链接的使用是有问题的,因为它使线性预测变量成为方差函数的参数的函数。” 在上一页中,他们将链接功能设置为 η= 日志(α1 + α) = 日志( μμ + k)η=日志⁡(α1个+α)=日志⁡(μμ+ķ)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) 和方差函数 V= μ + μ2ķ。V=μ+μ2ķ。V = \mu + \frac{\mu^2}{k}. 分布为 P[R (ÿ= y; α ,k )= (y+ k − 1 )!ÿ!(k − 1 )!αÿ(1 + α )ÿ= kP[R(ÿ=ÿ;α,ķ)=(ÿ+ķ-1个)!ÿ!(ķ-1个)!αÿ(1个+α)ÿ=ķPr(Y …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.