Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

5
处理稀有事件的逻辑回归策略
我想研究有限人群中的罕见事件。由于我不确定哪种策略最合适,因此我很高兴获得与该问题相关的技巧和参考,尽管我知道它已被广泛涵盖。我只是真的不知道从哪里开始。 我的问题是一门政治学,我的人口有限,有515,843条记录。它们与具有513,334个“ 0”和2,509个“ 1”的二进制因变量关联。我可以将我的“ 1”称为罕见事件,因为它们仅占人口的0.49%。 我有一组大约10个独立变量,我想建立一个模型来解释“ 1”的存在。像我们许多人一样,我阅读了King&Zeng在2001年发表的有关罕见事件校正的文章。他们的方法是使用案例控制设计来减少“ 0”的数量,然后对截距进行校正。 但是,这篇文章说,如果我已经收集了整个人群的数据,那么就不需要King&Zeng的论证了,这就是我的情况。因此,我必须使用经典的logit模型。对我来说不幸的是,尽管我获得了很好的显着系数,但是我的模型在预测方面完全没有用(无法预测99.48%的“ 1”)。 在阅读King&Zeng的文章之后,我想尝试一种案例控制设计,并且只选择10%的“ 0”和所有“ 1”。在几乎相同的系数下,该模型能够预测应用于全部人口的“ 1”的几乎三分之一。当然,有很多假阳性。 因此,我有三个问题想问你: 1)如果在您完全了解人口信息后,King&Zeng的方法是可取的,那么为什么他们会在文章中了解人口信息的情况下证明自己的观点呢? 2)如果我在logit回归中具有好的系数和微不足道的系数,但是预测能力很差,这是否意味着这些变量所解释的变化没有意义? 3)处理罕见事件的最佳方法是什么?我阅读了有关King的重新登录模型,Firth的方法,确切的登录等信息。我必须承认,我在所有这些解决方案中都迷失了。

1
广义估计方程和GLMM有什么区别?
我正在使用logit链接在3级不平衡数据上运行GEE。这与混合效果(GLMM)和logit链接的GLM有什么不同(就我得出的结论和系数的含义而言)? 更多详细信息:观察结果是单次bernoulli试验。它们分为教室和学校。使用R。按需省略NA。6个预测变量也包括交互项。 (我不是要让孩子们抬头看他们是否抬头。) 我倾向于对系数进行比对。两者的含义是否相同? 关于GEE模型中的“边际均值”,我的内心深处潜藏着一些东西。我需要向我解释一下。 谢谢。

6
逻辑回归的样本量?
我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。 我对吗?如果没有,请让我知道如何确定自变量的数量?

9
测量基于逻辑回归的模型的准确性
我有一个训练有素的逻辑回归模型,该模型将应用于测试数据集。因变量是二进制(布尔值)。对于测试数据集中的每个样本,我应用逻辑回归模型来生成因变量为true的概率百分比。然后我记录实际价值是对还是错。我正在尝试计算线性回归模型中的或Adjusted数字。R 2[R2R2R^2[R2R2R^2 这为我提供了测试集中每个样本的记录,例如: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... 我想知道如何测试模型的准确性。我的第一个尝试是使用列联表,并说“如果prob_value_is_true> 0.80,则猜测实际值为真”,然后测量正确分类与错误分类的比率。但我不喜欢这样,因为感觉更像是我只是以0.80为边界进行评估,而不是整个模型以及所有prob_value_is_true值的准确性。 然后,我尝试仅查看每个prob_value_is_true离散值,例如查看prob_value_is_true= 0.34的所有样本,并测量实际值是真实的那些样本的百分比(在这种情况下,如果样本的百分比为%,则将具有完美的准确性正确= 34%)。我可以通过将的每个离散值的差值相加来创建模型准确性得分prob_value_is_true。但是这里的样本大小是一个巨大的问题,尤其是对于极端情况(接近0%或100%),这样实际值的平均值就不准确,因此使用它们来衡量模型的准确性似乎并不正确。 我什至尝试创建巨大的范围以确保足够的样本量(0-.25,.25-.50,.50-.75,.75-1.0),但是如何测量实际值的%的“好” 。假设所有prob_value_is_true介于0.25和0.50之间的样本的平均值acutal_value为0.45。既然在范围内,那好吗?不好,因为它不在37.5%(范围的中心)附近? 因此,我被困在似乎应该是一个简单的问题上,希望有人可以将我指向一种资源或方法,以计算逻辑回归模型的静态精度。

3
如何理解R的polr函数的输出(有序逻辑回归)?
我是R的新手,有序逻辑回归,和polr。 polr帮助页面底部的“示例”部分(使逻辑或概率回归模型适合有序因子响应)显示 options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) pr包含哪些信息?配置文件上的帮助页面是通用的,不提供有关polr的指导。 什么是plot(pr)展示?我看到六个图。每个标签都有一个X轴,尽管标签是一个指示符变量(看起来像一个输入变量,它是一个序数值的指示符)。那么Y轴是“ tau”,这是无法解释的。 什么是pairs(pr)展示?它看起来像是每对输入变量的图,但是我再也看不到X或Y轴的解释。 如何理解该模型是否合适? summary(house.plr)显示残差3479.149和AIC(Akaike信息准则?)3495.149。这样好吗 在那些仅用作相对度量(即与另一个模型拟合进行比较)的情况下,什么是好的绝对度量?剩余偏差是否近似卡方分布?能否对原始数据使用“正确预测的百分比”或进行一些交叉验证?最简单的方法是什么? 如何应用和解释anova这一模型?文档说:“有一些用于标准模型拟合功能的方法,包括预测,汇总,vcov,方差分析。” 但是,运行anova(house.plr)结果anova is not implemented for a single "polr" object 如何解释每个系数的t值?与某些模型拟合不同,此处没有P值。 我意识到这是一个很多问题,但是对我来说,作为一个整体问(“我如何使用此东西?”)而不是7个不同的问题是有意义的。任何信息表示赞赏。
26 r  logistic 

2
logit值实际上是什么意思?
我有一个logit模型,在很多情况下,这个模型的数字在0到1之间,但是我们怎么解释呢? 让我们以0.20的logit作为例子 我们能否断言一个案例属于B组vs A组的可能性为20%? 这是解释logit值的正确方法吗?

2
R中的似然比检验
假设我要对几个自变量进行单变量逻辑回归,如下所示: mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) 我进行了模型比较(似然比检验),以查看该命令是否比空模型更好 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 然后我建立了一个包含所有变量的模型 mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) 为了查看变量在多变量模型中是否具有统计意义,我使用了以下lrtest命令epicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically significant after …
25 r  logistic  diagnostic 

2
逻辑回归背后的直觉
最近,我开始学习机器学习,但是未能掌握逻辑回归的直觉。 以下是我了解的关于逻辑回归的事实。 作为假设的基础,我们使用S形函数。我确实理解为什么这是一个正确的选择,但是为什么它是我不理解的唯一选择。假设表示适当的输出为的概率,因此我们函数的域应该为,这是我在这里发现有用和合适的S型函数的唯一属性,但是许多函数都满足此属性。另外,S形函数具有形式的导数,但是我看不到这种特殊形式在逻辑回归中的效用。[ 0 ,1 ] ˚F (X )(1 - ˚F (X ))1个1个1[ 0 ,1 ][0,1个][0,1]F(x )(1 − f(x ))F(X)(1个-F(X))f(x)(1-f(x)) 问题:sigmoid函数有何特别之处,为什么我们不能在域使用任何其他函数?[ 0 ,1 ][0,1个][0,1] 成本函数由两个参数如果如果则。就像上面一样,我确实理解为什么它是正确的,但是为什么它是唯一的形式?例如,为什么不是成本函数的好选择?Ý = 1 ,Ç Ò 小号吨(ħ θ(X ),Ý )= - 日志(1 - H ^ θ(X ))y = 0 | ħ θ (X )Ç Ò 小号吨( ħθ(x),y)=−log(hθ(x))CØsŤ(Hθ(X),ÿ)=-日志⁡(Hθ(X)){\rm …

3
用分类变量解释logit回归中的交互项
我从一项调查实验获得的数据中,将受访者随机分配到以下四个组之一: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 尽管三个治疗组在施加的刺激方面确实略有不同,但我关心的主要区别是对照组和治疗组之间。所以我定义了一个虚拟变量Control: > summary(df$Control) TRUE FALSE 59 191 在调查中,受访者(除其他外)被要求选择他们偏好的两件事中的哪一项: > summary(df$Prefer) A B NA's 152 93 5 然后,在接受治疗组确定的刺激(如果不在对照组中则没有刺激)后,要求受访者在相同的两件事之间进行选择: > summary(df$Choice) A B 149 101 我想知道三个治疗组之一的存在是否对受访者在最后一个问题中做出的选择有影响。我的假设是,接受治疗的受访者比接受治疗的可能性A更大B。 鉴于我正在使用分类数据,因此我决定使用logit回归(如果您认为这是不正确的,请随时鸣叫)。由于受访者是随机分配的,我的印象是我不一定需要控制其他变量(例如,人口统计学),因此我将那些变量留给了这个问题。我的第一个模型如下: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …

3
评估Hosmer-Lemeshow拟合优度的逻辑回归和解释
众所周知,有两种评估逻辑回归模型的方法,它们正在测试非常不同的事物 预测能力: 获取一个统计数据,该统计数据可衡量您可以基于自变量预测因变量的程度。众所周知的伪R ^ 2是McFadden(1974)和Cox and Snell(1989)。 拟合优度统计 该测试告诉您是否可以通过使模型更复杂来做得更好,实际上是在测试是否存在任何非线性或相互作用。 我在模型上实施了两个测试, 已经添加了二次和交互: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 …


3
当结果为分数(两个计数之比)时,如何在R中进行逻辑回归?
我正在审阅具有以下生物学实验的论文。使用装置将细胞暴露于变化量的流体剪切应力。当对细胞施加更大的剪切应力时,更多的细胞开始从基底上脱离。在每个剪切应力水平下,他们都对保持附着的细胞进行计数,并且由于他们知道开始时附着的细胞总数,因此他们可以计算分数附着(或分离)。 如果您绘制粘附分数与剪切应力的关系图,则结果将为逻辑曲线。从理论上讲,每个单元都是一个观察值,但是显然有成千上万个单元,因此,如果以通常的方式建立数据集(每一行都是一个观察值),那么数据集将是巨大的。 因此,自然地,我的问题(如标题中所述)现在应该有意义。我们如何使用分数结果作为DV进行逻辑回归?是否可以在glm中完成一些自动转换? 同样,如果可能存在3个或更多(分数)度量,那么对于多项式逻辑回归该怎么做?



1
Logistic回归抽样是否应反映1和0的实际比率?
假设我想创建一个逻辑回归模型,该模型可以根据树木的特征(身高)估算一些生活在树木上的动物物种的发生概率。和往常一样,我的时间和金钱有限,因此我只能收集有限的样本量。 我有以下问题: 样本中1和0的比率是否可以反映1和0的真实比率?(至少大约是)我注意到,使用均衡样本(1和0的数目相等)执行逻辑回归模型是一种常见的做法 -但是这样的模型给出了超现实的出现概率-对吗? 我是否可以使用任何文章/教科书来支持这种观点,即那些不能反映1和0的真实比率的模型是“ 错误的 ”?** 最后:根据Imai等人的说法,是否可以执行1:1采样并随后使用tau校正模型。2007年? 今井浩辅,加里·金和奥利维亚·刘。2007年。“ relogit:稀有事件二分因变量的逻辑回归”,作者Imai,Gary King和Olivia Lau,“ Zelig:每个人的统计软件”,http://gking.harvard.edu/zelig。 点表示树木(红色=已占用,灰色=未占用)。我能够以100%的精度(1)识别所有占用的树木,但是我无法测量森林中的所有树木。每个采样策略(比率)的模型都不相同。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.