我认为我对Logistic回归中的功能如何工作(或者可能只是整体功能)有一些根本的困惑。
函数h(x)如何产生在图像左侧看到的曲线?
我看到这是两个变量的图,但是这两个变量(x1和x2)也是函数本身的参数。我知道一个变量的标准函数映射到一个输出,但是此函数显然没有做到这一点-我不确定为什么。
我的直觉是,蓝色/粉红色曲线并没有真正绘制在该图上,而是一种表示形式(圆圈和X),它们映射到该图的下一个维度(第3个)中的值。这是错误的推理吗,我只是错过了什么吗?感谢您的任何见解/直觉。
我认为我对Logistic回归中的功能如何工作(或者可能只是整体功能)有一些根本的困惑。
函数h(x)如何产生在图像左侧看到的曲线?
我看到这是两个变量的图,但是这两个变量(x1和x2)也是函数本身的参数。我知道一个变量的标准函数映射到一个输出,但是此函数显然没有做到这一点-我不确定为什么。
我的直觉是,蓝色/粉红色曲线并没有真正绘制在该图上,而是一种表示形式(圆圈和X),它们映射到该图的下一个维度(第3个)中的值。这是错误的推理吗,我只是错过了什么吗?感谢您的任何见解/直觉。
Answers:
这是Andrew Ng在具有两个特征的分类模型的情况下过度拟合ML的Coursera课程的示例,其中真实值用×和symbol表示,决策边界为通过使用高阶多项式项精确地为训练集量身定做。
它试图说明的问题与以下事实有关:尽管边界决策线(蓝色的曲线线)没有对任何示例进行错误分类,但其从训练集中泛化的能力将受到损害。Ng继续解释正则化可以减轻这种影响,并绘制洋红色曲线作为决策边界,该边界与训练集的关系不太紧密,并且更有可能泛化。
关于您的特定问题:
我的直觉是,蓝色/粉红色曲线并没有真正绘制在该图上,而是一种表示形式(圆圈和X),它们映射到该图的下一个维度(第3个)中的值。
没有高度(第三维):有两个类别和∘ ),决策线显示模型如何将它们分开。在更简单的模型中
决策边界将是线性的。
也许您想到了这样的东西,例如:
但是,请注意,假设中有一个函数-您最初的问题中的逻辑激活。因此,对于x 1和x 2的每个值,多项式函数都会经历并“激活”(通常是非线性的,例如像OP中那样的S型函数,尽管不是必须的(例如RELU))。作为一个有界输出乙状结肠激活适合于一个概率解释:在一个分类模型的想法是,在给定的阈值的输出将被标记为× (或∘ )。有效地,连续输出将被压缩为二进制(1 , 输出。
注意决策边界上Wikipedia中的条目:
在具有两个类别的统计分类问题中,决策边界或决策面是将基础向量空间划分为两组的超曲面,每个类别一组。分类器会将决策边界一侧的所有点归为一类,并将另一侧的所有点归为另一类。决策边界是问题空间的区域,其中分类器的输出标签不明确。
连接多个神经元后,可以将这些分离的超平面相加或相减,以得到反复变化的形状:
这与通用逼近定理有关。
我们有一些重型数学家回答了这个问题。我从未见过像您在此处描绘的那样的图,其中预测变量X1和X2的值以及“决策边界”线将预测阳性与预测阴性分隔开。(或者它是预测结果与实际结果的映射图?)但是,它很有用-只要您只想映射两个感兴趣的预测因子。
看起来洋红色线将预测的阳性结果与预测的阴性结果分开,而深蓝色线则包括所有阳性结果。在逻辑回归中通常是这种情况:模型将正确地预测少于100%的情况的结果(并会预测一些假阳性和/或假阴性)。
可以运行逻辑回归并让过程为数据集中的每个个案生成函数h(x)。这将为每个主题生成一个倾向评分,从0到1,基于使用所有对象的逻辑回归模型,基于该对象的预测变量,给出每个对象的阳性结果的预测可能性或概率。倾向得分临界值为0.5或更高的那些将被预测为有结果,而低于0.5的那些将被预测为没有结果。但是您可以根据自己的需要调整此截止级别,例如,基于在逻辑回归分析中输入的所有输入变量,为某些结果建立诊断预测模型。例如,您可以将截止值设置为0.3。然后,您可以制作2x2的预测结果与实际结果表,并根据该临界值确定模型的敏感性,特异性,假阳性率和假阴性率。这不仅提供了更多信息,还使您摆脱了图表中使用的2个变量的限制。您可以在模型中合理使用尽可能多的预测变量,并且仍然制作一个2X2的实际vs预测结果表。由于逻辑回归使用分类(是或否)结果,因此2X2表中的每个单元格只是满足行和列条件的主题的计数。您可以在模型中合理使用尽可能多的预测变量,并仍然制作一个2X2的实际vs预测结果表。由于逻辑回归使用分类(是或否)结果,因此2X2表中的每个单元格只是满足行和列条件的主题的计数。您可以在模型中合理使用尽可能多的预测变量,并仍然制作一个2X2的实际vs预测结果表。由于逻辑回归使用分类(是或否)结果,因此2X2表中的每个单元格只是满足行和列条件的主题的计数。
在您提供的图形中,它可能假设截止值为0.5。这是软件的常见默认设置。如果您将其调整得更高(例如,调整为0.65),则可能会将所有O都包含在行内,但您还会有一些误报(X认为应为O),这些误报将由模型预测为具有利益。(或将截止分数降低,并产生更多的假阴性)。
我希望这有帮助。