Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
指数对数回归系数与比值比不同
据我了解,对数回归的指数贝塔值是该变量与相关因变量的比值比。但是,该值与手动计算的优势比不匹配。我的模型使用保险等其他指标预测发育迟缓(营养不良的一种衡量标准)。 // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins 这些值不同的概念原因是什么?控制回归中的其他因素?只是想能够解释差异。

2
结合二进制和连续响应的最佳方法
我正在尝试提出预测收款公司付款金额的最佳方法。付款后,因变量仅为非零。可以理解的是,由于绝大多数人无法联系到或无法偿还债务,因此存在大量的零。 债务金额和还款可能性之间也存在非常强烈的负相关关系。通常,我会创建一个逻辑模型来预测支付/不支付的可能性,但这不幸的结果是找到了余额最低的人。 有没有一种方法可以将后勤支付/非支付模型与预测支付金额的单独模型结合起来?

2
多类逻辑回归
我得到了用于多类逻辑回归的模型,由 P(Y=j|X(i))=exp(θTjX(i))1+∑km=1exp(θTmX(i))P(Y=j|X(i))=exp⁡(θjTX(i))1+∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} 其中k是类数theta是要估计的参数j是第j类Xi是训练数据 好吧,我没有得到的是分母部分 对模型进行归一化。我的意思是使概率保持在0到1之间。1 + ∑m = 1ķ经验值(θŤ米X(我))1+∑m=1kexp⁡(θmTX(i)) 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) 我的意思是我习惯逻辑回归 P(是= 1 | X(我))= 1 /(1 + 经验(- θŤX(我)))P(Y=1|X(i))=1/(1+exp⁡(−θTX(i))) P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)})) 实际上,我对标准化的东西感到困惑。在这种情况下,由于它是一个S型函数,因此永远不会让该值小于0或大于1。但是在多类情况下,我感到困惑。为什么会这样呢? 这是我的参考https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html。我认为它应该是被归一化 P(是= j | X(我))= exp(θŤĴX(我))∑ķm = 1经验值(θŤ米X(我))P(Y=j|X(i))=exp⁡(θjTX(i))∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})}


6
如何评估二元结果分类预测变量集的预测能力?计算概率还是逻辑回归?
我试图确定简单概率是否可以解决我的问题,或者使用(学习)逻辑回归等更复杂的方法是否更好。 此问题中的响应变量是二进制响应(0,1)。我有许多都是分类无序的预测变量。我正在尝试确定预测变量的哪些组合产生最高的1。我需要逻辑回归吗?仅针对分类预测变量的每种组合计算样本集中的比例会有什么好处?


1
交叉随机效应和不平衡数据
我正在建模一些我认为有两个交叉随机效应的数据。但是数据集不平衡,我不确定需要做些什么来说明它。 我的数据是一组事件。当客户端与提供者会面以执行成功或失败的任务时,将发生事件。有数千个客户和提供者,每个客户和提供者都参与不同数量的事件(大约5到500个)。每个客户和提供者都有一定的技能水平,任务成功的机会取决于两个参与者的技能。客户和提供者之间没有重叠。 我对客户和提供者人数的各自差异感兴趣,因此我们可以知道哪个来源对成功率有更大的影响。我还想知道我们实际拥有数据的客户和提供者之间技能的具体价值,以确定最佳/最差的客户或提供者。 最初,我想假设成功的可能性仅由客户和提供者的综合技能水平决定,而没有其他固定影响。因此,假设x是客户端的一个因素,y是提供者的一个因素,那么在R中(使用程序包lme4),我将模型指定为: glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 一个问题是客户端在提供者之间分布不均。较高技能的客户更有可能与较高技能的提供者匹配。我的理解是,随机效应必须与模型中的任何其他预测变量均不相关,但是我不确定如何对其进行解释。 同样,一些客户和提供者的事件很少(少于10个),而其他事件和事件却很多(最多500个),因此我们在每个参与者上拥有的数据量分布广泛。理想情况下,这将反映在每个参与者技能估计值的“置信区间”中(尽管我认为“置信区间”一词在这里并不十分正确)。 由于数据不平衡,交叉随机效应会成为问题吗?如果是这样,我应该考虑哪些其他方法?


2
哪种核方法能提供最佳的概率输出?
最近,我已经使用Platt对SVM输出的缩放来估计默认事件的概率。更直接的替代方法似乎是“内核逻辑回归”(KLR)和相关的“导入向量机”。 谁能说出哪种给出概率输出的核方法是最新技术?是否存在KLR的R实现? 非常感谢您的帮助!

3
如何在逻辑回归(SPSS)中处理非二元分类变量
我必须使用许多自变量进行二进制逻辑回归。它们大多数是二进制的,但是一些分类变量具有两个以上的级别。 处理此类变量的最佳方法是什么? 例如,对于一个具有三个可能值的变量,我假设必须创建两个虚拟变量。然后,在逐步回归过程中,最好同时测试两个虚拟变量,或者分别测试它们? 我将使用SPSS,但我不太清楚,所以:SPSS如何处理这种情况? 此外,对于序数分类变量,使用伪变量重新创建序数标度是一件好事吗?(例如,使用三个虚拟变量为一个4状态定序变量,把0-0-0用于电平,为电平2,为电平3和用于电平4,而不是,,和为4个级别)。1个111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

1
混合效应逻辑回归的固定效应解释
我对UCLA网页上有关混合效应逻辑回归的陈述感到困惑。他们显示了一个通过拟合这样的模型得到的固定效应系数表,下面的第一段似乎完全像正常的逻辑回归那样解释系数。但是,当他们谈论比值比时,他们说您必须根据随机效应来解释它们。是什么使对数奇数的解释与其指数值不同? 要么不需要“保持其他所有内容不变”? 从该模型解释固定效应系数的正确方法是什么?我总是给人的印象是“正常”逻辑回归没有任何变化,因为随机效应的期望值为零。因此,无论有无随机效应,您都可以解释完全相同的对数奇数和优势比-仅更改了SE。 估计可以基本上一如既往地解释。例如,对于IL6,IL6的单位增加与预期的缓解对数几率中的0.053单位降低相关。同样,已婚或已婚的人有望获得的缓解几率比未婚者高0.26。 许多人喜欢解释赔率。但是,当存在混合效果时,这些将具有更细微的含义。在常规logistic回归中,优势比与所有其他预测变量固定的预期优势比成正比。这是有道理的,因为我们经常对统计数据进行调整以适应其他影响(例如年龄),以获得结婚的“纯”影响或任何主要的主要预测指标。混合效应逻辑模型也是如此,此外,保持所有其他特征不变包括保持随机效应不变。也就是说,赔率是指保持年龄和IL6恒定的人以及具有相同医生或具有相同随机效应的医生的人的条件赔率


2
逻辑回归和序数自变量
我发现了这篇文章: 是。该系数反映了顺序预测变量中每个变化增量的对数几率变化。这个(非常常见的)模型规范假设预测变量在其增量上具有线性影响。为了检验假设,您可以将使用序数变量作为单个预测变量的模型与将响应离散化并将其视为多个预测变量的模型进行比较(就像变量是名义变量一样)。如果后一种模型的拟合效果不佳,则将每个增量视为具有线性效应是合理的。 – @ dmk38 2010年12月12日,5:21 您能否告诉我在哪里可以找到支持该主张的出版物?我正在处理数据,我想在逻辑回归中使用序数自变量。

2
优势比和危险比之间是否存在功能差异?
在逻辑回归中,优势比为2意味着在预测变量增加1个单位的情况下,该事件的可能性高2倍。在Cox回归中,危险比为2意味着,如果预测变量增加一个单位,则该事件在每个时间点的发生频率将是两倍。这些实际上不是一回事吗? 如果我们可以从逻辑回归的优势比中获得功能上相同的信息,那么进行Cox回归和获得风险比的优势是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.