关于逻辑回归的哲学问题:为什么未训练最佳阈值?


13

通常在逻辑回归中,我们拟合模型并获得训练集上的一些预测。然后,我们对这些训练预测进行交叉验证(类似于此处),并根据ROC曲线确定最佳阈值。

我们为什么不将阈值的交叉验证整合到实际模型中,并端到端地训练整个过程?

Answers:


19

没有使用模型训练阈值,因为逻辑回归不是分类器(参见,为什么逻辑回归不称为逻辑分类?)。它是一个模型,用于估计控制伯努利分布行为的参数p。也就是说,您假设以协变量为条件的响应分布是伯努利,因此您想估计控制该变量的参数如何随协变量而变化。这是一个直接的概率模型。当然,它可以随后用作分类器,有时在某些情况下也可以用作分类器,但它仍然是概率模型。


1
好的,我理解理论的这一部分(感谢您的雄辩解释!)但是为什么我们不能将分类方面纳入模型呢?也就是说,为什么我们不能找到p,然后找到阈值,并端到端地训练整个过程以最大程度地减少损失?
StatsSorceress

4
您当然可以(@Sycorax的答案说明了这种可能性)。但是,由于这不是LR本身,而是某些临时增强,因此您需要自己编写完整的优化方案。顺便说一句,顺便说一句,弗兰克·哈雷尔(Frank Harrell)指出,这一过程将导致许多标准都认为是劣等模型。
gung-恢复莫妮卡

1
嗯 我在此处阅读了相关问题中的可接受答案,并且在理论上也同意该观点,但是有时在机器学习分类应用程序中,我们不在乎相对错误类型,而在乎“正确分类”。在这种情况下,您可以按照我的描述进行端到端培训吗?
StatsSorceress

4
就像我说的,您可以设置自己的自定义优化,以训练模型并同时选择阈值。您只需要自己做,就大多数标准而言,最终模型可能会更差。
gung-恢复莫妮卡

1
@StatsSorceress“ ...有时在机器学习分类中……”。应该有一个大的重视有时。很难想象一个项目,精度是正确答案。以我的经验,它总是涉及少数群体的精确和召回。
韦恩

15

这是因为最佳阈值不仅是真实阳性率(TPR),错误阳性率(FPR),准确性或其他因素的函数。另一个关键因素是正确和错误决定的成本和收益。

如果您的目标是普通感冒,那么您对阳性测试的反应是开出两个阿司匹林,而真正未经治疗的阳性的花费则是不必要的两天头痛,那么您的最佳决策(不是分类!)门槛是相当高的与您的目标是威胁生命的疾病不同,您的决定是(a)一些相对简单的手术,如阑尾切除术,或(b)重大干预,如数月的化疗!并且请注意,尽管您的目标变量可能是二进制的(病态/健康),但您的决定可能具有更多的价值(向家里发送两次阿司匹林/进行更多的测试/入院并立即观察/操作)。

底线:如果您知道成本结构和所有不同的决策,则可以肯定地直接训练决策支持系统(DSS),其中包括概率分类或预测。但是,我强烈认为,通过阈值离散化预测或分类并不是解决此问题的正确方法。

另请参阅我对早期“分类概率阈值”线程的回答。还是我的这个答案。还是那个


4

抛开哲学上的顾虑,这会导致计算上的困难。

原因是具有连续输出的功能相对容易优化。您寻找功能增加的方向,然后按照这种方式进行。如果我们更改损失函数以包括“截止”步骤,则我们的输出将变为离散的,因此损失函数也将变为离散的。现在,当我们以“一点点”改变逻辑函数的参数,并以“一点点”共同改变临界值时,我们的损失给出相同的值,优化变得困难。当然,这不是不可能的(离散优化有一个完整的研究领域),但是到目前为止,连续优化仍然是不可能的。优化许多参数时,更容易解决的问题。方便地,一旦逻辑模型拟合,尽管仍然是离散的输出问题,但找到最佳截止点现在仅在一个变量中,我们可以进行网格搜索或类似的搜索,而在一个变量中完全可行。


3

不管基础模型如何,我们都可以在阈值下计算TPR和FPR的采样分布。这意味着我们可以在某个阈值处表征TPR和FPR的可变性,并且可以返回到所需的错误率折衷。

ROC曲线有些欺骗性,因为您唯一控制的是阈值,但是该图显示了TPR和FPR,这是阈值的函数。而且,TPR和FPR都是统计数据,因此它们易受随机抽样的影响。这意味着,如果您要重复该过程(例如通过交叉验证),则可以在某个特定阈值下得出不同的FPR和TPR。

但是,如果我们可以估计TPR和FPR的可变性,则无需重复ROC程序。我们只是选择一个阈值,以使置信区间的端点(具有一定宽度)可以接受。也就是说,选择模型,使FPR合理地低于某些研究人员指定的最大值,和/或TPR合理地高于某些研究人员指定的最小值。如果您的模型无法达到目标,则必须构建更好的模型。

当然,您的使用中可允许的TPR和FPR值将取决于上下文。

有关更多信息,请参见 Wojtek J. Krzanowski和David J. Hand的ROC连续数据曲线


这并不能真正回答我的问题,但这是对ROC曲线的很好描述。
StatsSorceress

这不会以什么方式回答您的问题?您的问题是什么,如果不询问如何选择分类阈值?
Sycorax说恢复莫妮卡

2
我不知道有任何这样的统计程序。为什么这个方轮是个好主意?它解决什么问题?
Sycorax说恢复莫妮卡

1
“如何以减少培训时间的方式选择阈值?” 似乎是与您原始帖子中的问题完全不同的问题。
Sycorax说要

1
无论如何,我看不到如何节省时间。制作ROC曲线并不是估算模型中最昂贵的部分,因此将阈值选择移至优化步骤似乎是临时的和不必要的。
Sycorax说要恢复Monica

-2

通常在生物医学研究中,我们不使用训练集-我们仅对整个数据集应用逻辑回归,以了解哪些预测因子是我们正在考虑的结果的重要危险因素;或在控制其他可能的预测因素对结果的影响的同时查看一个感兴趣的预测因素。
我不确定阈值的含义,但可以尝试优化各种参数:AUC,将连续预测变量二分法的临界值,正负预测值,置信区间和p值,误报率和误报率。Logistic回归分析对象群体,并评估有助于该群体关注结果的风险因素的强度和因果关系。可以说,也可以“逆向运行”,并根据个人具有的风险因素来确定个人的结果风险。Logistic回归根据每个人的风险因素为每个人分配结果风险,默认为0.5。如果一个主题 (基于模型中的所有数据和主题)得出结果的概率为0.5或更高,表明他将获得结果;如果低于0.5,则表明他不会。但是您可以调整此截止级别,例如,标记更多可能有结果风险的个人,尽管这样做的代价是模型预测了更多的假阳性。您可以调整此临界值水平,以优化筛查决策,从而例如可以预测建议哪些个体进行进一步的医学随访。并根据Logistic回归模型构建筛查测试的阳性预测值,阴性预测值以及假阴性和假阳性率。您可以在一半的数据集上开发模型,并在另一半上对其进行测试,但是您不会 确实必须这样做(这样做将把您的“训练”数据减少一半,从而降低了在模型中找到重要预测变量的能力)。所以是的,您可以“从头到尾训练整个事情”。当然,在生物医学研究中,您可能希望在另一个人群,另一个数据集上对其进行验证,然后再说您的结果可以推广到更广泛的人群。另一种方法是使用自举式方法,在该模型上对研究总体的子样本运行模型,然后将这些主题替换回池中,并用另一个样本重复多次(通常为1000次)。如果您在规定的大部分时间内(例如95%的时间)获得了显着的结果,那么您的模型至少在您自己的数据上可以被视为经过验证。但同样,您运行模型的研究人群越小,某些预测变量成为结果的统计学上显着的危险因素的可能性就越小。对于参与者人数有限的生物医学研究尤其如此。
使用一半的数据来“训练”模型,然后在另一半上“验证”模型是不必要的负担。对于t检验或线性回归,您不这样做,那么为什么要在逻辑回归中呢?它最多可以做的是让您说“是的,它可以工作”,但是如果您使用完整的数据集,则无论如何都可以确定。将数据分解为较小的数据集会冒着以下风险:由于样本量小,研究规模的预测变量过多以及可能存在的事实,导致无法在研究种群(或验证种群)中实际检测到重大风险因素您的“验证样本”将不会偶然显示任何关联。“先培训后验证”方法背后的逻辑似乎是,如果您认为重要的风险因素不够强大,那么当您对数据的某些随机选择进行建模时,它们在统计上就不会有统计学意义。但是,随机选择的样本可能恰巧没有偶然关联,或者因为风险因素太小而没有统计学意义。但是,决定风险重要性的因素是风险因素的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。以随机选择的一半数据为模型进行统计时,具有统计学意义。但是,随机选择的样本可能恰巧没有偶然关联,或者因为风险因素太小而没有统计学意义。但是,决定风险重要性的因素是风险因素的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。以随机选择的一半数据为模型进行统计时,具有统计学意义。但是,随机选择的样本可能恰巧没有偶然关联,或者因为风险因素太小而没有统计学意义。但是,决定风险重要性的因素是风险因素的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。但是,随机选择的样本可能恰巧没有偶然关联,或者因为风险因素太小而没有统计学意义。但是,决定风险重要性的因素是风险因素的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。但是,随机选择的样本可能恰巧没有偶然关联,或者因为风险因素太小而没有统计学意义。但是,决定风险重要性的因素是风险因素的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。确定风险重要性的风险因子的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。确定风险重要性的风险因子的大小及其统计意义,因此,最好使用完整的数据集来构建模型。与大多数统计检验一样,对于较小的样本量,统计显着性也将变得不那么重要。进行逻辑回归与统计科学几乎是一门艺术。根据您的研究设计,有不同的使用方法和不同的参数来优化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.