Logistic回归如何产生非传统函数的曲线?


15

我认为我对Logistic回归中的功能如何工作(或者可能只是整体功能)有一些根本的困惑。

函数h(x)如何产生在图像左侧看到的曲线?

我看到这是两个变量的图,但是这两个变量(x1和x2)也是函数本身的参数。我知道一个变量的标准函数映射到一个输出,但是此函数显然没有做到这一点-我不确定为什么。

在此处输入图片说明

我的直觉是,蓝色/粉红色曲线并没有真正绘制在该图上,而是一种表示形式(圆圈和X),它们映射到该图的下一个维度(第3个)中的值。这是错误的推理吗,我只是错过了什么吗?感谢您的任何见解/直觉。


8
请注意轴标签,请注意,两者均未标记为ÿ
马修·德鲁里

3
什么是“传统功能”?
ub

@matthewDrury我理解这一点,这解释了2D X / O。我问绘制的曲线从何而来
山姆

Answers:


19

这是Andrew Ng在具有两个特征的分类模型的情况下过度拟合MLCoursera课程的示例,其中真实值用×symbol表示决策边界为通过使用高阶多项式项精确地为训练集量身定做。X1X2×

它试图说明的问题与以下事实有关:尽管边界决策线(蓝色的曲线线)没有对任何示例进行错误分类,但其从训练集中泛化的能力将受到损害。Ng继续解释正则化可以减轻这种影响,并绘制洋红色曲线作为决策边界,该边界与训练集的关系不太紧密,并且更有可能泛化。


关于您的特定问题:

我的直觉是,蓝色/粉红色曲线并没有真正绘制在该图上,而是一种表示形式(圆圈和X),它们映射到该图的下一个维度(第3个)中的值。

没有高度(第三维):有两个类别决策线显示模型如何将它们分开。在更简单的模型中×

HθX=Gθ0+θ1X1+θ2X2

决策边界将是线性的。


也许您想到了这样的东西,例如:

5+2X-1.3X2-1.2X2ÿ+1X2ÿ2+3X2ÿ3

在此处输入图片说明

但是,请注意,假设中有一个函数-您最初的问题中的逻辑激活。因此,对于x 1x 2的每个值,多项式函数都会经历并“激活”(通常是非线性的,例如像OP中那样的S型函数,尽管不是必须的(例如RELU))。作为一个有界输出乙状结肠激活适合于一个概率解释:在一个分类模型的想法是,在给定的阈值的输出将被标记为× 有效地,连续输出将被压缩为二进制1 GX1X2× 输出。10

X1X2×××R-bloggers上的此博客条目)。

注意决策边界上Wikipedia中的条目:

在具有两个类别的统计分类问题中,决策边界或决策面是将基础向量空间划分为两组的超曲面,每个类别一组。分类器会将决策边界一侧的所有点归为一类,并将另一侧的所有点归为另一类。决策边界是问题空间的区域,其中分类器的输出标签不明确。

[01]

在此处输入图片说明


3

在此处输入图片说明

ÿ1=HθXw ^ΘΘ

连接多个神经元后,可以将这些分离的超平面相加或相减,以得到反复变化的形状:

在此处输入图片说明

这与通用逼近定理有关


1
+1总是喜欢阅读答案。如果可以使决策平面与绘图相交,则可能会更好。显示上方和下方。
海涛杜

非常感谢。我仍然感觉好像我在曲线本身上遗漏了一些小东西–就是说,决策边界并不是真正的“绘制”,而仅仅是Andrew Ng表示x1和x2的值阈值的方式,使假设为×或∘?我认为我的某些困惑源于该曲线最初如何成为函数,但现在我意识到并非如此。
山姆

1
@AntoniParellada太好了,我现在看到了区别。非常感谢您的帮助。
山姆

0

我们有一些重型数学家回答了这个问题。我从未见过像您在此处描绘的那样的图,其中预测变量X1和X2的值以及“决策边界”线将预测阳性与预测阴性分隔开。(或者它是预测结果与实际结果的映射图?)但是,它很有用-只要您只想映射两个感兴趣的预测因子。
看起来洋红色线将预测的阳性结果与预测的阴性结果分开,而深蓝色线则包括所有阳性结果。在逻辑回归中通常是这种情况:模型将正确地预测少于100%的情况的结果(并会预测一些假阳性和/或假阴性)。
可以运行逻辑回归并让过程为数据集中的每个个案生成函数h(x)。这将为每个主题生成一个倾向评分,从0到1,基于使用所有对象的逻辑回归模型,基于该对象的预测变量,给出每个对象的阳性结果的预测可能性或概率。倾向得分临界值为0.5或更高的那些将被预测为有结果,而低于0.5的那些将被预测为没有结果。但是您可以根据自己的需要调整此截止级别,例如,基于在逻辑回归分析中输入的所有输入变量,为某些结果建立诊断预测模型。例如,您可以将截止值设置为0.3。然后,您可以制作2x2的预测结果与实际结果表,并根据该临界值确定模型的敏感性,特异性,假阳性率和假阴性率。这不仅提供了更多信息,还使您摆脱了图表中使用的2个变量的限制。您可以在模型中合理使用尽可能多的预测变量,并且仍然制作一个2X2的实际vs预测结果表。由于逻辑回归使用分类(是或否)结果,因此2X2表中的每个单元格只是满足行和列条件的主题的计数。您可以在模型中合理使用尽可能多的预测变量,并仍然制作一个2X2的实际vs预测结果表。由于逻辑回归使用分类(是或否)结果,因此2X2表中的每个单元格只是满足行和列条件的主题的计数。您可以在模型中合理使用尽可能多的预测变量,并仍然制作一个2X2的实际vs预测结果表。由于逻辑回归使用分类(是或否)结果,因此2X2表中的每个单元格只是满足行和列条件的主题的计数。
在您提供的图形中,它可能假设截止值为0.5。这是软件的常见默认设置。如果您将其调整得更高(例如,调整为0.65),则可能会将所有O都包含在行内,但您还会有一些误报(X认为应为O),这些误报将由模型预测为具有利益。(或将截止分数降低,并产生更多的假阴性)。
我希望这有帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.