随机Logistic回归与普通香草Logistic回归之间的差异


12

我想知道之间的差异随机Logistic回归(RLR)和普通的Logistic回归(LR),因此,我正在读一纸“稳定性选择”通过Meinshausen等。; 但是我不明白什么是RLR,以及RLR和LR之间的区别。

有人可以指出我应该读些什么才能理解RLR吗?还是有一个简单的例子开始?


1
RLR不是标准术语。请定义方法。
Frank Harrell

谢谢@FrankHarrell ...该方法来自scikit学习库
Hendra Bunyamin 2015年

现在有一个新的用于机器学习/大数据的堆栈交换站点,也许这个问题就在那儿。
Placidia 2015年

4
@Placidia这是一个好建议。但是,您自己的答案说明了此问题的原因:我们可以更好地提供一个平衡的观点,以准确地表征和比较问题的统计和ML方面。虽然可能有人对“数据科学”网站可能有助于这样的回答,我的经验是,这将是不可能的。
ub

3
令我惊讶的是,这个新站点叫做数据科学,它占了统计学的一半以上,而统计学正是这个站点的目的。
弗兰克·哈雷尔

Answers:


17

您可能想查看此参考。Sci-kit learning实现了随机逻辑回归,并在其中描述了该方法。

但是要回答您的问题,这两种方法的目标差异很大。Logistic回归与拟合模型有关,RLR与找到模型中的变量有关。

香草逻辑回归是广义线性模型。对于二进制响应,我们假定响应概率的对数几率是许多预测变量的线性函数。使用最大似然估计预测变量的系数,然后基于模型的大样本属性来推断参数。为了获得最佳结果,我们通常假设该模型相当简单并且易于理解。我们知道哪些自变量会影响响应。我们要估计模型的参数。

当然,实际上,我们并不总是知道模型中应包含哪些变量。在潜在解释变量的数量巨大且其值稀疏的机器学习情况下尤其如此。

多年以来,许多人试图使用统计模型拟合技术来进行变量(读作“特征”)选择。在提高可靠性方面:

  1. 拟合一个大模型,并使用不重要的Wald统计信息删除变量。并非总是能产生最好的模型。
  2. 查看所有可能的模型并选择“最佳”。计算强度大且不可靠。
  3. 用L1惩罚项(套索样式)拟合大型模型。无用的变量会被丢弃。更好,但对于稀疏矩阵不稳定。
  4. 随机化方法3.取随机子集,对每个子集拟合一个惩罚模型并整理结果。选择经常出现的变量。当响应为二进制时,这是随机逻辑回归。可以使用连续数据和通用线性模型提取相似的技术。

2
+1很高兴看到这样一种表达清晰,易读,内容丰富的一般方法调查。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.