Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
结果(比率或分数)在0到1之间的回归
我正在考虑建立一个预测比率的模型,其中和且。因此,该比率将在和之间。一个≤ b 一> 0 b > 0 0 1a/ba/ba/ba≤ba≤ba \le ba>0a>0a > 0b>0b>0b > 0000111 我可以使用线性回归,尽管它自然不限于0.1。我没有理由相信这种关系是线性的,但是无论如何,它当然经常被用作简单的第一个模型。 我可以使用逻辑回归,尽管通常将其用于预测两态结果的概率,而不是从0.1.1范围内预测连续值。 一无所知,您将使用线性回归,逻辑回归还是隐藏选项c?

5
倾向得分与在回归中添加协变量相比有何不同?何时优先选择后者?
我承认我在倾向得分和因果分析方面还比较陌生。 作为一个新手,对我而言不明显的一件事是,使用倾向得分的“平衡”在数学上与在回归中添加协变量时发生了什么变化?该操作有何不同,为什么它(或它)比在回归中添加子群体协变量更好? 我看过一些对这些方法进行实证比较的研究,但是我没有看到关于这两种方法的数学性质的很好的讨论,为什么PSM却不适合因果关系而又不包括回归协变量。在这个领域似乎也有很多困惑和争议,这使得事情变得更加难以掌握。 对这个问题有什么想法,或者有什么好的资源/论文可以更好地理解两者之间的区别?(我正在慢慢浏览Judea Pearl的因果关系书,因此无需指出这一点)

5
如何得出岭回归解?
我在脊回归解决方案的推导中遇到一些问题。 我知道没有正则化项的回归解决方案: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 但是在将L2项到成本函数之后,解决方案变成了λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.


4
创建模型时,是否应保留“没有统计学意义的协变量”?
我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。

6
最小角度回归与套索
最小角度回归和套索趋向于产生非常相似的正则化路径(除系数为零外,其余均相同)。 它们都可以通过几乎相同的算法有效地拟合。 是否有任何实际的理由偏爱一种方法而不是另一种方法?
39 regression  lasso 

3
在进行逻辑回归之前需要标准化吗?
我的问题是,在拟合逻辑回归之前,我们是否需要标准化数据集以确保所有变量在[0,1]之间具有相同的标度。公式为: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 我的数据集有2个变量,它们针对两个通道描述相同的事物,但是数量不同。假设这是两家商店的顾客拜访次数,这里是顾客是否购物。因为客户可以在购物之前访问两个商店,或者两次访问第一家商店,所以第二次访问一次。但是第一家商店的客户访问总次数是第二家商店的10倍。当我适合这个逻辑回归,没有标准化, coef(store1)=37, coef(store2)=13; 如果我将数据标准化,则coef(store1)=133, coef(store2)=11。这样的事情。哪种方法更有意义? 如果我适合决策树模型怎么办?我知道树结构模型不需要标准化,因为模型本身会以某种方式对其进行调整。但是请与大家一起检查。

3
为什么多项式回归被视为多元线性回归的特例?
如果多项式回归建模非线性关系,那么如何将其视为多元线性回归的特殊情况? Wikipedia指出:“尽管多项式回归将非线性模型拟合到数据中,但作为统计估计问题,它是线性的,这是因为在估计的未知参数中回归函数是线性的从数据中。”E(y|x)E(y|x)\mathbb{E}(y | x) 如果参数是 2 阶项的系数,则多项式回归如何在未知参数中线性化?≥≥\ge

2
泊松和负二项式回归何时拟合相同的系数?
我已经注意到,在R中,泊松和负二项式(NB)回归似乎总是适合相同的系数,以用于分类但非连续的预测变量。 例如,这是带有分类预测变量的回归: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) 这是一个连续预测变量的示例,其中泊松和NB拟合不同的系数: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (当然,这些不是计数数据,模型也没有意义...) 然后,将预测变量重新编码为一个因子,然后两个模型再次拟合相同的系数: library(Hmisc) speedCat = cut2(cars$speed, g=5) #you can change …

5
Cox回归的预测
我正在执行多变量Cox回归,我有重要的自变量和beta值。该模型非常适合我的数据。 现在,我想使用我的模型并预测新观测值的生存时间。我不清楚如何使用Cox模型执行此操作。在线性或逻辑回归中,这很容易,只需将新观测值放入回归中并将它们乘以beta,就可以预测结果了。 如何确定基线危害?除了计算预测之外,我还需要它。 在Cox模型中如何完成?

8
在测试自变量对变化得分的影响时,将基线测量值作为控制变量是否有效?
我正在尝试运行OLS回归: DV:一年中体重的变化(初始体重-最终体重) IV:您是否运动。 但是,较轻的人较重的人每运动一次会减轻更多的体重,这似乎是合理的。因此,我想包含一个控制变量: CV:初始起始重量。 但是,现在都使用初始权重来计算因变量AND作为控制变量。 这个可以吗?这是否违反了OLS的假设?


2
解释R的输出以进行二项式回归
对于二项式数据测试,我是一个新手,但需要做一个,现在我不确定如何解释结果。y变量(响应变量)是二项式的,解释因素是连续的。这是我总结结果时得到的: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

3
折交叉验证估计的方差为
TL,DR:看来,与经常重复的建议相反,采用留一法交叉验证(LOO-CV),即KKK倍CV,其中KKK(折数)等于NNN(数训练观察值)-得出泛化误差的估计值,该估计值对于任何 K都是最小变量,而不是最大变量,假设模型/算法,数据集或两者都有一定的稳定性条件(我不确定哪个是正确的,因为我不太了解这种稳定性条件。KKK 有人可以清楚地说明这个稳定条件到底是什么吗? 线性回归就是这样一种“稳定”算法,这是否真的意味着在这种情况下,就泛化误差估计的偏差和方差而言,LOO-CV严格来说是CV的最佳选择? 传统观点认为,在K倍CV中选择KKK时要遵循偏差方差的折衷,这样较低的K值(逼近2)会导致对泛化误差的估计,这些偏差具有更悲观的偏差,但方差较小,而值较高(接近N)的K导致估计的偏差较小,但方差更大。关于这种随着K增大而增加的方差现象的常规解释可能在《统计学习的要素》(第7.10.1节)中最突出地给出:KKKKKKKKKNNNKKK 在K = N的情况下,交叉验证估计器对于真实的(预期)预测误差几乎是无偏的,但是由于N个“训练集”彼此非常相似,因此交叉验证估计器可能具有较高的方差。 这意味着NNN验证错误之间的相关性更高,因此它们的总和更具可变性。在本网站(例如,这里,这里,这里,这里,这里,这里和这里)以及各种博客等上的许多答案中都重复了这种推理方法。但是实际上,从来没有给出详细的分析,而是只是分析的直觉或简要草图。 但是,人们可以找到矛盾的陈述,通常是出于某种我不太了解的“稳定”条件。例如,这个矛盾的答案引用了2015年一篇论文的几段内容,其中包括:“对于不稳定性低的模型/建模程序,LOO通常具有最小的可变性”(强调后加)。本文(第5.2节)似乎同意,只要模型/算法“稳定” ,LOO就代表的最小变量选择。对此问题甚至采取另一种立场(推论2),该论文说:“ k倍交叉验证的方差不取决于kKKKkkkkkk”,再次引用了某种“稳定性”条件。 关于为什么LOO可能是变化最大的折CV的解释很直观,但是有一个直觉。均方误差(MSE)的最终CV估算值是每一倍MSE估算值的平均值。因此,当K增加到N时,CV估计值是随机变量数量增加的平均值。而且我们知道,均值的方差会随着变量数量的平均化而减小。因此,为了使LOO成为变化最大的K倍CV,必须确实如此,由于MSE估计之间的相关性增加而导致的方差增加要大于因平均获得的折叠次数更多而导致的方差减少。KKKKKKNNNKKK。事实并非如此,这一点也不明显。 考虑到所有这些问题后,我变得非常困惑,我决定对线性回归案例进行一些模拟。我用 = 50和3个不相关的预测变量模拟了10,000个数据集,每次使用K = 2、5、10 或50 = N的K倍CV 估计泛化误差。R代码在这里。以下是所有10,000个数据集(以MSE单位)的CV估计值的均值和方差:NNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 0.053 0.051 这些结果显示了预期的模式,即较高的值导致较小的悲观偏见,但似乎也证实了在LOO情况下CV估计的方差最低,而不是最高。KKK 因此,线性回归似乎是上述论文中提到的“稳定”情况之一,其中增加与CV估计中的减少而不是增加的方差有关。但是我仍然不明白的是:KKK “稳定”条件到底是什么?它在某种程度上适用于模型/算法,数据集,或两者都适用? 有没有一种直观的方式来考虑这种稳定性? …

3
比较SVM和Logistic回归
有人可以给我一些何时选择SVM或LR的直觉吗?我想了解两者的超平面的优化标准之间有何区别的直觉,其各自的目标如下: SVM:尝试使最接近的支持向量之间的裕度最大化 LR:最大化后类可能性 让我们考虑SVM和LR的线性特征空间。 我已经知道一些差异: SVM是确定性的(但我​​们可以使用Platts模型进行概率评分),而LR是概率性的。 对于内核空间,SVM更快(仅存储支持向量)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.