Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

1
计算预测间隔以进行逻辑回归
我想了解如何为逻辑回归估计生成预测间隔。 建议我遵循Collett的Modeling Binary Data,第二版,第98-99页中的步骤。在实现了此过程并将其与R进行比较之后predict.glm,我实际上认为这本书展示的是计算置信区间而非预测区间的过程。 与相比predict.glm,Collett实施了该程序,如下所示。 我想知道:如何从这里开始产生预测间隔而不是置信区间? #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df …

2
二项式回归和逻辑回归之间有什么区别?
我一直认为逻辑回归只是二项式回归的一种特殊情况,其中链接函数是逻辑函数(而不是概率函数)。 但是,通过阅读我遇到的另一个问题的答案,听起来我可能会感到困惑,并且逻辑回归和具有逻辑联系的二项式回归之间存在差异。 有什么不同?

3
如何在R中建立和估计多项式logit模型?
我在JMP中运行了一个多项式logit模型,并返回了结果,其中包括AIC以及每个参数估计值的卡方p值。该模型具有一个分类结果和7个分类解释变量。 然后,我使用nnet包中的multinom函数来拟合我认为可以在R中构建相同模型的内容。 该代码基本上是: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); 但是,两者给出的结果不同。对于JMP,AIC为2923.21,nnet::multinom对于AIC为3116.588。 所以我的第一个问题是:其中一个模型有误吗? 第二件事是,JMP为我需要的每个参数估计值提供卡方的p值。在多项式fit1上运行摘要不会-仅给出估计值,AIC和偏差。 因此,我的第二个问题是:有没有一种方法可以获取模型的p值并在使用时进行估算nnet::multinom? 我知道mlogit是另一个R包,它的输出看起来包括p值。但是,我无法mlogit使用我的数据运行。我认为我的数据格式正确,但是它说我的公式无效。我使用了与以前相同的公式multinom,但似乎使用管道需要使用不同的格式,但我不知道它是如何工作的。 谢谢。
20 r  logistic  multinomial  logit  jmp 

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
为逻辑回归绘制预测概率的置信区间
好的,我进行了逻辑回归,并使用该predict()函数根据我的估计来绘制概率曲线。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") 很好,但我对绘制概率的置信区间感到好奇。我已经尝试过plot.ci()但是没有运气。谁能指出一些完成此操作的方法,最好是使用car包装或基数R。

2
建立比率与百分比的线性模型?
假设我想建立一个模型来预测某种比率或百分比。例如,假设我要预测参加聚会的男孩与女孩的数量,并且我可以在模型中使用的聚会功能包括诸如聚会广告的数量,场地的大小,是否有将是聚会上的任何酒类,等等。(这只是一个虚构的示例;功能并不是很重要。) 我的问题是:预测比率与百分比之间有什么区别,并且根据选择的模型,我的模型如何变化?这个比那个好吗?其他功能是否比其中任何一个更好?(我并不真正在乎比率与百分比的具体数字;我只想能够确定哪些政党更有可能是“男孩政党”还是“女孩政党”。)例如,我思维: 如果我要预测百分比(例如,# boys / (# boys + # girls)则为0,则由于我的依存特征被限制在1与1之间,我可能应该使用逻辑回归而不是线性回归)。 如果我想预测比率(例如,# boys / # girls或# boys / (1 + # girls)避免除以零的误差),那么我的从属特征为正,那么在使用线性回归之前,我是否应该应用某种(log?)变换?(或其他一些模型?对于正的非计数数据使用哪种回归模型?) 通常最好预测(说)百分比而不是比率,如果是,为什么?

1
帮助我了解逻辑回归中的调整后的优势比
我一直很难理解一篇论文中逻辑回归的用法。此处可用的论文使用逻辑回归来预测白内障手术期间发生并发症的可能性。 令我感到困惑的是,该论文提出了一个将比值比1分配给基线的模型,描述如下: 对于所有风险指标而言,其风险状况均属于参考组的患者(即,表1中所有风险指标均已调整为OR = 1.00)可被视为具有“基准风险状况”,而逻辑回归模型表明其具有“基准预测概率” PCR或VL或两者均= 0.736%。 因此,以0.00的比值比表示0.00736的概率。基于从概率到比值比的转换:,它不能等于1: 。o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} 它变得更加混乱。代表多个协变量的复合比值比具有不同于基线的值,用于计算预测风险。 ...表1的复合OR为1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5,从图1的图中可以看出,该OR与预测的PCR或VL或两者的预测概率相对应大约20% 得出示例中给出的值的唯一方法是将基线概率乘以这样的复合赔率: 。0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)} 那么这是怎么回事?将比值比1分配给非0.5的基线概率有什么逻辑?我上面提出的更新公式提供了本文中示例的正确概率,但这并不是我期望的比值比的直接乘积。之后怎么样了?

3
稀有事件逻辑回归偏差:如何用一个最小的例子模拟被低估的p?
CrossValidated对于何时以及如何应用King和Zeng(2001)的罕见事件偏差校正有几个问题。我正在寻找与众不同的东西:一个基于模拟的最小演示,证明存在偏差。 特别是国王和曾国 “……在极少数事件数据中,几千个样本量的概率偏差可能实际上是有意义的,并且处于可预测的方向:估计的事件概率太小。” 这是我尝试模拟R中的这种偏差: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not constant, assume …

2
“逻辑回归”的名称是什么意思?
我从这里检查Logistic回归的实现。 在我阅读了这篇文章之后,似乎重要的部分是找到确定S形函数的最佳系数。因此,我只是想知道为什么将此方法称为“逻辑回归”。它与对数函数有关吗?也许我需要一些历史背景信息才能更好地理解它。

2
分类预测因子在逻辑回归中的意义
我在解释逻辑回归时无法解释类别变量的z值。在下面的示例中,我有3个类别的分类变量,根据z值,CLASS2可能是相关的,而其他则不相关。 但是现在这是什么意思呢? 我可以将其他班级合并成一个班级吗? 整个变量可能不是一个好的预测指标? 这仅是一个示例,此处的实际z值并非来自实际问题,我对其解释有困难。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

11
为什么逻辑回归称为机器学习算法?
如果我正确理解,则在机器学习算法中,该模型必须从其经验中学习,即,当模型对新情况给出错误的预测时,它必须适应新的观察结果,并且随着时间的推移,模​​型会变得越来越好。我看不到逻辑回归具有这种特征。那么为什么它仍被视为机器学习算法?在“学习”方面,逻辑回归与普通回归之间有何区别? 对于随机森林,我也有同样的问题! “机器学习”的定义是什么?

1
绘制并解释序数逻辑回归
我有一个序数相关变量,易用性,范围从1(不容易)到5(非常容易)。独立因子值的增加与易用性等级的提高相关。 我的两个自变量(condA和condB)是分类的,每个具有2个级别,而2(abilityA,abilityB)是连续的。 我在R中使用了序数包,它使用了我认为是的 (来自@狞的答案在这里)分对数(p (ÿ⩽ 克))= lnp (ÿ⩽ 克)p (ÿ> 克)= β0G− (β1个X1个+ ⋯ + βpXp)(克= 1 ,… ,k − 1 )Logit(p(ÿ⩽G))=ln⁡p(ÿ⩽G)p(ÿ>G)=β0G-(β1个X1个+⋯+βpXp)(G=1个,…,ķ-1个)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) 我一直在独立地学习这一点,并希望在我仍在努力的过程中提供任何帮助。除了序数包随附的教程外,我还发现以下内容会有所帮助: 序数逻辑回归的解释 有序逻辑回归中的负系数 但是我试图解释结果,并将不同的资源放在一起,并陷入困境。 …

2
通过时间进行逻辑回归更新分类概率
我正在建立一个预测模型,该模型可以预测学生在学期末的成功概率。我对学生是成功还是失败特别感兴趣,其中成功通常被定义为完成课程并获得总分的70%或更多。 当我部署模型时,随着更多信息的获得,成功概率的估计需要随着时间的推移而更新-理想的情况是发生某种事情后立即发生,例如学生提交作业或获得一项成绩时。这种更新对我来说听起来像是贝叶斯,但是考虑到我在教育统计方面的训练,这有点超出我的舒适范围。 到目前为止,我一直在使用逻辑回归(实际上是套索)与包含基于周快照的历史数据集。由于每个学生都有观察值,因此该数据集具有相关的观察值;一个学生的观察结果是相关的。我不是在特定学生的每周观察中专门建模相关性。我相信我只需要在推论环境中考虑一下,因为标准误会太小。我认为-但对此不确定-从相关观察得出的唯一问题是,当我交叉验证以将聚类观察保留在数据的一个子集中时,我需要格外小心,这样我就不会根据对模型已经见过的人的预测,人为地降低样本外错误率。ŤË ř 米大号ë Ñ 克吨ħ / 7TermLength/7TermLength/7 我正在使用R的glmnet程序包对逻辑模型进行套索处理,以生成成功/失败的可能性,并自动为特定课程选择预测变量。我一直使用周变量作为因素,与所有其他预测变量进行交互。我认为这与仅估计基于周的单个模型在总体上并没有什么不同,除了它可以使我们了解整个期间中可能存在一些通用模型,这些模型可以在不同星期通过各种风险调整因子进行调整。 我的主要问题是:是否有一种更好的方法来随时间更新分类概率,而不是将数据集分为每周(或其他基于间隔的)快照,引入与其他要素交互的时间周期因子变量,以及使用累积功能(累积的积分,上课的累积天数等)? 我的第二个问题是:我是否在这里缺少与相关观测值相关的预测建模的关键内容? 我的第三个问题是:考虑到我每周做快照,如何将其概括为实时更新?我正在计划仅在当前的每周时间间隔内插入变量,但这对我来说似乎很麻烦。 仅供参考,我受过应用教育统计方面的培训,但很早以前就拥有数学统计方面的知识。如果可以的话,我可以做一些更复杂的事情,但是我需要用相对容易理解的术语来解释。


3
Logistic回归如何使用二项式分布?
我试图了解逻辑回归如何使用二项式分布。 假设我正在研究鸟巢的成功。嵌套成功的概率为0.6。使用二项分布,我可以计算n次试验(研究的巢数)后r次成功的概率。 但是,在建模环境中如何使用二项式分布?假设我想知道平均温度如何影响筑巢成功,并且我使用逻辑回归研究了这个问题。 在我描述的上下文中,逻辑回归如何使用二项式分布? 我正在寻找一个直观的答案,因此没有方程式的答案!我认为方程式只有在直观的理解水平上才有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.