逻辑回归背后的直觉


25

最近,我开始学习机器学习,但是未能掌握逻辑回归的直觉。

以下是我了解的关于逻辑回归的事实。

  1. 作为假设的基础,我们使用S形函数。我确实理解为什么这是一个正确的选择,但是为什么它是我不理解的唯一选择。假设表示适当的输出为的概率,因此我们函数的域应该为,这是我在这里发现有用和合适的S型函数的唯一属性,但是许多函数都满足此属性。另外,S形函数具有形式的导数,但是我看不到这种特殊形式在逻辑回归中的效用。[ 0 1 ] ˚F X 1 - ˚F X 1个[01个]FX1个-FX

    问题:sigmoid函数有何特别之处,为什么我们不能在域使用任何其他函数?[01个]

  2. 成本函数由两个参数如果如果则。就像上面一样,我确实理解为什么它是正确的,但是为什么它是唯一的形式?例如,为什么不是成本函数的好选择?Ý = 1 Ç Ò 小号ħ θX Ý = - 日志1 - H ^ θX y = 0 | ħ θ X CØsŤHθXÿ=-日志HθXÿ=1个CØsŤHθXÿ=-日志1个-HθXÿ=0|HθX-ÿ|

    问题:以上成本函数形式有何特别之处?为什么我们不能使用其他形式?

如果您能分享对逻辑回归的理解,我将不胜感激。


5
当响应以二项式分布时,logit / logistic函数不是唯一可用作回归模型的链接函数的函数。关于这一点,它可以帮助您在此处阅读我的答案:logit和probit模型之间的区别
gung-恢复莫妮卡

4
我在这里的回答logit函数始终是二进制数据回归建模的最佳选择,也可能有助于思考各种可能性。
gung-恢复莫妮卡

1
@AdamO在下面提供了出色的概述。如果您想获得有关logit是“规范链接功能”的含义的更多详细信息,则可能需要在此处阅读Momo的答案:glm的链接功能和规范链接功能之间的区别
gung-恢复莫妮卡

1
stats.stackexchange.com/a/70922上显示了(1)的工作示例,其中使用“ Sigmoid” 。该答案包括对(2)的解释。另一个示例出现在stats.stackexchange.com/questions/63978/…stats.stackexchange.com/a/69873上进行了更为平淡(但技术性较低)的讨论,重点是问题(2)。
ub

Answers:


7

逻辑回归模型是使用自然参数(对数比)的最大可能性,以对比预测变量中每单位差异结果风险的相对变化。当然,这是假设结果的二项式概率模型。这意味着逻辑回归的一致性和鲁棒性属性直接从最大可能性扩展:鲁棒性到随机数据丢失,根n一致性以及估计方程解的存在性和唯一性。这是假设解决方案不在参数空间的边界上(对数比值为)。由于逻辑回归是最大可能性,因此损失函数与可能性相关,因为它们是等效的优化问题。±

对于拟似然性或估计方程式(半参数推理),存在性,唯一性属性仍然成立,但均值模型成立的假设无关紧要,并且无论模型是否指定错误,推理和标准误均一致。因此,在这种情况下,Sigmoid是否为正确函数不是问题,而是给我们一种趋势,使我们可以相信并被具有可扩展解释的参数所参数化。

但是,乙状结肠并不是唯一的这种二进制建模函数。最常见的Probit函数具有相似的属性。它不会估计对数比,但是在功能上它们看起来非常相似,并且趋向于为完全相同的事物提供非常相似的近似值。也不必在均值模型函数中使用边界属性。只需使用具有二项式方差函数的对数曲线即可得出相对风险回归,而具有二项式方差的恒等链接则可以得出附加风险模型。所有这些由用户确定。令人遗憾的是,逻辑回归的流行是为什么它如此常用。但是,我有我的理由(我说过的理由),为什么我认为它在大多数二进制结果建模环境中使用是有道理的。

在推论世界中,对于罕见的结果,优势比可以粗略地解释为“相对风险”,即“将X + 1与X进行比较的结果风险的相对变化百分比”。并非总是如此,总的来说,优势比不能也不应这样解释。但是,这些参数具有解释性,并且可以轻松地与其他研究人员进行交流是重要的一点,而机器学习者的教学材料却令人遗憾地缺少这一点。

逻辑回归模型还为更复杂的方法(例如层次建模,混合建模和条件似然方法)提供了概念基础,这些方法对于骚扰参数的数量呈指数增长是一致且稳健的。GLMM和条件逻辑回归是高维统计中非常重要的概念。


1
非常感谢您的回答!似乎我的背景非常缺乏。
user16168 2013年

我认为McCullough和Nelder的书《广义线性模型》对于更多的统计数据而言将是一个很好的背景资源。
AdamO 2013年

通常,您在机器学习中建议哪些教科书具有非常详细的描述性内容?
2013年

Hastie,Tibshirani,Friedman的统计学习元素。
AdamO 2013年

2
@ user48956统计分析,缺少Dada,Little和Rubin第二版。丢失的数据本身不是“表示”的,而是通过省略来“处理”的。这并不是逻辑回归所特有的:它是所有统计模型所使用的幼稚方法。当数据以矩形数组格式格式化时,将省略缺少值的行。这称为完整案例分析。GLM和GLMMS对丢失的数据具有很强的鲁棒性,因为完整的案例分析通常是无偏见的并且效率不高。
AdamO'7

6

YXYYXYi=Xiβ+ϵi

YYY

ÿ一世=X一世β+ϵ一世ÿ一世=0如果ÿ一世<0ÿ一世=1个如果ÿ一世>0
X

ÿXÿÿ

βϵFP{ÿ一世=1个}=FX一世β

P{ÿ一世=1个}=1个-F-X一世β

ϵF

F


您所描述的完全是概率模型的动机,而不是逻辑回归。
AdamO 2013年

6
ϵi

这似乎是一个非常敏感的假设,并且很难进行测试。我认为,当这种误差分布不成立时,可以推动逻辑回归。
AdamO 2013年

2
@AdamO,但是您可以推动逻辑回归,它在数学上仍然等同于阈值线性回归模型,其中误差具有逻辑分布。我同意这个假设可能很难检验,但是无论您是如何激发问题的,这个假设都存在。我回想起先前关于CV的答案(我现在无法放置它),该答案通过模拟研究表明,试图判断逻辑模型或概率模型“更适合”基本上是一次硬币翻转,而与真实的数据生成模型无关。我认为后勤由于其方便的解释而更受欢迎。
2013年

2
Pÿ一世=1个=ËXpX一世β1个+ËXpX一世β
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.