Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归


8
Logistic回归中如何处理完美分离?
如果您的变量将目标变量中的零和一完美地分开,R将产生以下“完美或准完美分离”警告消息: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我们仍然可以得到模型,但是系数估计被夸大了。 您在实践中如何处理?



3
进行逻辑回归时,不平衡样本是否重要?
好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。 我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。 但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?

5
如何手动计算曲线下面积(AUC)或c统计量
我对手工计算二进制逻辑回归模型的曲线下面积(AUC)或c统计量感兴趣。 例如,在验证数据集中,我具有因变量的真实值(保留(1 =保留; 0 =不保留)),以及通过使用以下模型进行回归分析而生成的每个观察值的预测保留状态:使用训练集构建(范围从0到1)。 我最初的想法是确定模型分类的“正确”数目,然后将“正确”观察数除以总观察数即可计算出c统计量。通过“正确”,如果观察的真实保留状态= 1且预测的保留状态> 0.5,则为“正确”分类。另外,如果观察值的真实保留状态= 0并且预测的保留状态<0.5,则这也是“正确”的分类。我假设当预测值= 0.5时会出现“领带”,但在我的验证数据集中不会出现这种现象。另一方面,“不正确”分类将是观察的真实保留状态= 1且预测的保留状态<0。5或结果的真实保留状态= 0且预测的保留状态> 0.5。我知道TP,FP,FN,TN,但不知道在给定此信息的情况下如何计算c统计量。


3
诊断逻辑回归?
对于线性回归,我们可以检查诊断图(残差图,普通QQ图等),以检查是否违反了线性回归的假设。 对于逻辑回归,我很难找到解释如何诊断逻辑回归模型合适的资源。挖掘一些GLM的课程笔记,它只是指出检查残差对进行Logistic回归拟合的诊断没有帮助。 环顾互联网,似乎还有各种“诊断”程序,例如检查模型偏差和执行卡方检验,但其他消息来源指出这是不合适的,您应该执行Hosmer-Lemeshow拟合优度测试。然后,我发现其他来源指出该测试可能高度依赖于实际的分组和截止值(可能不可靠)。 那么如何诊断逻辑回归拟合呢?

2
求解封闭形式vs梯度下降中的回归参数
在Andrew Ng的机器学习课程中,他介绍了线性回归和逻辑回归,并展示了如何使用梯度下降和牛顿方法拟合模型参数。 我知道梯度下降在机器学习的某些应用(例如,反向传播)中可能很有用,但在更一般的情况下,有任何理由为什么您不会以封闭形式求解参数-即,采用成本函数和通过微积分求解? 如果可用,在封闭形式的解决方案上使用像梯度下降这样的迭代算法通常有什么优势?


1
一个简单的逻辑回归模型如何在MNIST上实现92%的分类精度?
即使MNIST数据集中的所有图像都居中,具有相似的比例并且面朝上且没有旋转,但它们的笔迹差异很大,这使我感到困惑,线性模型如何实现如此高的分类精度。 据我所能想象的,鉴于明显的笔迹变化,数字应该在784维空间中线性不可分割,即应该有一点点(尽管不是很复杂)非线性边界将不同的数字分开,类似于引人注目的XØ [RXORXOR示例,其中正类别和负类别无法通过任何线性分类器分开。在我看来,多类逻辑回归如何在具有完全线性特征(无多项式特征)的情况下产生如此高的准确性令我感到困惑。 例如,给定图像中的任何像素,数字222和333不同手写体变化可以使该像素发光或不发光。因此,通过一组学习的权重,每个像素可以使数字看起来像222以及333。只有结合像素值,才可以说出数字是222还是333。对于大多数数字对都是如此。因此,逻辑回归如何盲目地将决策独立于所有像素值(根本不考虑像素间的依赖性),从而能够实现如此高的准确性。 我知道我在某个地方错了,或者只是高估了图像中的变化。但是,如果有人可以帮助我直观地了解数字如何“几乎”线性可分,那将是很棒的。

3
逻辑回归中的残差是什么意思?
在回答这个问题时,约翰·克里斯蒂(John Christie)建议通过评估残差来评估逻辑回归模型的拟合度。我熟悉如何解释OLS中的残差,它们与DV具有相同的比例,并且非常清楚地知道y与模型预测的y之间的差异。但是对于逻辑回归,过去我通常只检查模型拟合的估计值,例如AIC,因为我不确定残差对逻辑回归意味着什么。在稍微看一下R的帮助文件后,我发现R中有五种类型的glm残差可用c("deviance", "pearson", "working","response", "partial")。帮助文件是指: Davison,AC和Snell,EJ(1991)残留和诊断。在:统计理论与建模。为了纪念David Cox爵士,FRS编辑。欣克利,DV,里德,N。和斯内尔,EJ,查普曼和霍尔。 我没有那个副本。是否有简短的方法来描述如何解释这些类型中的每一种?在逻辑条件下,残差平方和会提供一种有意义的模型拟合度量,还是采用信息准则会更好?


1
R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?
我正在尝试使用50个连续的解释变量来预测二进制结果(大多数变量的范围是到)。我的数据集几乎有24,000行。当我在R中运行时,我得到:∞−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 我已阅读过其他建议,可能会发生完美分离,但我确信数据中并非如此(尽管存在准完全分离;如何测试情况是否如此?) 。如果删除一些变量,则“不收敛”错误可能会消失。但这并不总是会发生。 我尝试在bayesglm函数中使用相同的变量,并得到相同的错误。 您将采取什么步骤来弄清楚这里到底发生了什么?您如何找出导致问题的变量?

1
逻辑回归的Wald检验
据我所知,逻辑回归中的Wald检验用于确定某个预测变量XXX是否显着。它拒绝了相应系数为零的零假设。 该测试包括将系数的值除以标准误差σσ\sigma。 我感到困惑的是X/ σX/σX/\sigma也称为Z分数,它表示给定观察值从正态分布(均值为零)出现的可能性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.