Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

3
在逻辑回归(或其他形式的回归)中测试非线性
Logistic回归的一种假设是logit中的线性。因此,一旦我建立了模型并开始运行,就可以使用Box-Tidwell测试来测试非线性。我的一个连续预测变量(X)对非线性进行了正面测试。我接下来该怎么办? 因为这违反了假设,所以我应该摆脱预测变量(X)或包括非线性变换(X * X)。还是将变量转换为分类变量?如果您有参考,也可以给我指出吗?


1
如何修复LogisticRegressionCV中的不收敛
我正在使用scikit-learn对一组数据执行交叉验证并进行交叉验证(约有14个参数,且具有> 7000个标准化观测值)。我也有一个目标分类器,其值为1或0。 我的问题是,无论使用什么求解器,我都会不断收到收敛警告... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') /home/b/anaconda/lib/python2.7/site-packages/scipy/optimize/linesearch.py:285: LineSearchWarning: The line search algorithm did not converge warn('The line search algorithm did not converge', LineSearchWarning) /home/b/anaconda/lib/python2.7/site-packages/sklearn/utils/optimize.py:193: UserWarning: Line Search failed model2 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='sag',penalty='l2') max_iter reached after 2 seconds max_iter reached after 2 seconds max_iter reached after 2 seconds max_iter reached after 2 …

4
在逻辑回归分析中,对于连续自变量,我应如何检查对数线性的假设?
我对逻辑回归分析中连续预测变量的logit线性假设感到困惑。在使用单变量logistic回归分析筛选潜在预测指标时,我们是否需要检查线性关系? 就我而言,我正在使用多元逻辑回归分析来确定参与者中与营养状况(二分结果)相关的因素。连续变量包括年龄,Charlson合并症评分,Barthel指数评分,握力,GDS评分,BMI等。我的第一步是使用简单的逻辑回归筛选重要变量。在每个连续变量的简单逻辑回归分析过程中,是否需要检查线性假设?还是应该在最终的多元逻辑回归模型中进行检查? 此外,据我了解,我们需要先将非线性连续变量转化为模型,然后再进行转换。我可以对非线性连续变量进行分类而不是进行转换吗?

3
伯努利试验中估计“成功”可能性所需的样本量
假设一个游戏提供了一个事件,该事件在完成时要么给出奖励,要么什么都不给出。确定是否给出奖励的确切机制尚不清楚,但我假设使用了随机数生成器,并且如果结果大于某个硬编码值,则可以获得奖励。 如果我想对工程师进行什么逆向工程以决定奖励的获得频率(估计为15%至30%),我该如何计算所需的样本数量? 我从这里的“真实概率估计器”部分开始:Checking_whether_a_coin_is_fair,但不确定我是否正朝正确的道路前进。我得到了〜1000个样本的结果,在95%置信度下最大误差为3%。 最终,这是我要解决的问题: 事件#1的X%给予奖励1.0R 事件#2的奖励率为1.4R,有%的时间 我想足够准确地估算X和Y,以确定哪个事件更有效。大样本量是一个问题,因为我最多每20分钟只能获取1个样本。

1
优势比的荟萃分析是否基本没有希望?
在最近的一篇论文中,诺顿等人。(2018)指出[1][1]^{[1]} 当导致赔率估算的统计模型具有不同的解释变量时,无法比较来自同一研究的不同赔率,因为每个模型具有不同的任意比例因子。也不能将一项研究的优势比的幅度与另一项研究的优势比的幅度进行比较,因为不同的样本和不同的模型规格将具有不同的任意缩放因子。进一步的暗示是,在多项研究中,给定关联的比值比的大小无法在荟萃分析中进行综合。 一个小的模拟说明了这一点(R代码在问题的底部)。假设真实模型为: 进一步想象一下,由四个不同的研究人员使用逻辑回归分析了上述模型生成的相同数据。研究人员1仅包含作为协变量,研究人员2同时包含和,依此类推。四位研究人员的优势比的平均模拟估计值为:logit(yi)=1+log(2)x1i+log(2.5)x2i+log(3)x3i+0x4ilogit(yi)=1+log⁡(2)x1i+log⁡(2.5)x2i+log⁡(3)x3i+0x4i \mathrm{logit}(y_{i})=1 + \log(2)x_{1i} + \log(2.5)x_{2i} + \log(3)x_{3i} + 0x_{4i} x1x1x_{1}x1x1x_{1}x2x2x_{2}x1x1x_{1} res_1 res_2 res_3 res_4 1.679768 1.776200 2.002157 2.004077 显然,只有研究人员3和4获得了大约的正确比值比,而研究人员1和2没有。这在线性回归中不会发生,可以通过类似的模拟轻松显示(此处未显示)。我必须承认,尽管这个问题似乎是众所周知的,但这个结果对我来说却是令人惊讶的。Hernán等。(2011)将此称为“数学上的奇异性”,而不是偏见。222[2][2]^{[2]}[3][3]^{[3]} 我的问题: 如果各研究和模型之间的优势比基本上不可比,那么我们如何结合不同研究的结果以得出二元结果呢? 有什么可以对无数的元分析的结果可以说并从不同的研究结合起来,优势比,每个研究可能调整不同协变量集?他们本质上是无用的吗? 参考文献 [1]:Norton EC,Dowd BE,Maciejewski ML(2018年):赔率-当前最佳实践和使用。JAMA 320(1):84-85。 [2]:Norton EC,Dowd BE(2017年):对数赔率和Logit模型的解释。卫生服务水库。53(2):859-878。 [3]:HernánMA,Clayton D,Keiding N(2011):揭开了辛普森悖论的面纱。Int J Epidemiol 40:780-785。 揭露 问题(包括R代码)是用户timdisher在数据方法上提出的问题的修改版本。 R代码 set.seed(142857) n_sims <- 1000 # number …

2
了解逻辑回归和可能性
参数估计/逻辑回归训练如何真正起作用?我将尽我所能。 输出是y的逻辑函数输出,其概率形式取决于x的值: P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} 对于一个维度,所谓的赔率定义如下: p(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1xp(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x{{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x} 现在添加log函数以线性形式获取W_0和W_1: Logit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log(p(y=1|x)1−p(y=1|x))=ω0+ω1xLogit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x 现在到问题部分 使用似然性(Big X是y) 谁能说出为什么我们两次考虑y = 1的概率?由于: L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=∏i=1,yi=1NP(xi)∏i=1,yi=0N(1−P(xi))L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))P(y=0|x)=1−P(y=1|x)P(y=0|x)=1−P(y=1|x)P(y=0|x)=1-P(y=1|x) 以及如何从中得到ω的值?

2
泊松回归的Log Link和Identity Link的优缺点
我执行泊松回归与比较(和采取的差)在我的模型中的两个因子水平的预测均值计数的最终目标 ,而持有其他模型协变量(这些都是二进制) 不变。我想知道是否有人可以提供有关何时使用日志链接和身份链接的实用建议。考虑到我比较差异的目标,这两个不同链接函数在Poisson回归中的利弊是什么?μ^1个- μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2 对于Logistic /二项式回归(使用Logit链接或Identity链接)以比较两个因子水平之间的比例差异,我也有相同的目标,需要类似的建议。我读过一些有关此问题的文章,但似乎没有人解释为什么或何时选择一个链接而不是另一个链接,以及优点/缺点。在此先感谢您的帮助! 更新: 我还意识到使用某些链接函数的主要目的是将可能的预测值的范围限制在平均响应范围内(例如,对于逻辑,该范围限制在0到1之间,对于对数链接,则将预测限制为正数)。因此,我想问的是,如果我使用身份链接进行逻辑/二项式回归,而我的结果在(0,1)范围内,是否真的需要使用逻辑链接功能或我可以简单地考虑使用身份链接吗?

2
Logistic回归何时合适?
我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。 根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。 但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。 因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?

1
Logistic回归中的拟合优度检验;我们要测试哪个“合适”?
我指的是这个问题及其答案:如何比较通过Logistic回归开发的模型的(概率)预测能力?@Clark Chong发表,@ Frank Harrell回答/评论。并在Hosmer-Lemeshow测试和评论中质疑的自由度χ2χ2\chi^2。 我已经阅读了DW Hosmer,T. Hosmer,S. Le Cessie,S. Lemeshow的论文,“ Logistic回归模型的拟合优度检验比较”,《医学统计》,第1卷。16,965-980(1997)。 阅读后,我感到困惑,因为我提到的问题明确要求“(概率)预测能力”,我认为这与上述论文的拟合优度检验旨在: 如我们大多数人所知,逻辑回归假设解释变量和成功概率之间呈S形联系,S形的函数形式为 P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} 在不假装Hosmer-Lemeshow检验没有缺点的情况下,我认为我们必须区分(a)“(概率)预测能力 ”和(b)“ 拟合优度 ”的检验。 前者的目标是检验概率是否得到了很好的预测,而拟合优度检验则检验了上面的S形函数是否为“正确”函数。更正式地: “概率预测能力测试”的检验具有,表明模型很好地预测了成功概率;H0H0H_0 而对于拟合优度测试,(参见Hosmer等人)认为上述S形功能形式是正确的。Hosmer等。进行仿真,在仿真中他们发现有能力检测到两种与零值的偏差,即链接函数错误或分母中的指数不是线性的。H0H0H_0 显然,如果上述函数具有“正确”的函数形式(因此,如果测试得出结论,我们可以接受作为拟合优度检验),则预测的概率将很好,...H0H0H_0 第一句话 ...但是,接受的结论很微弱,如我们未能否定原假设时该怎么办?。H0H0H_0 第一个问题 我最重要的问题/评论是,如果拟合优度被拒绝,则测试的结论是功能形式不是“正确的”形式,但是,这暗示着概率是预测不好?H0H0H_0 第二个问题 此外,我想指出Hosmer等人的结论。al; (我从摘要中引用): ``当正确的模型具有二次项但仅包含线性项的模型已拟合时,对测试性能的检查表明,皮尔逊卡方,未加权平方和,Hosmer-Lemeshow十分位数风险,平滑的残差平方和和Stukel得分测试,当样本量为100时,具有超过50%的功效来检测线性的适度偏离,对于大小为500的样本,这些相同替代品的功效为90%以上当正确的模型具有二分和连续协变量之间的相互作用,但只有连续协变量模型适合时,所有检验均无功效。对于大小为100的样本,检测到错误指定链接的能力很差。对于大小为500的样本,Stukel' s得分测试的功效最佳,但检测不对称链接功能的结果仅超过50%。未加权平方和检验用于检测指定不正确的链接函数的能力比Stukel的分数检验要小'' 我可以由此得出结论,哪个测试具有更大的功效,或者说Hosmer–Lemeshow的功效更低(检测这些特定异常)? 第二句话 Hosmer等人的论文。等 我在上文中提到过,计算(模拟)检测特定异常的功率(仅在指定情况下才能计算功率)。我认为这并不意味着可以将这些结果推广到“所有可能的替代方案 ”?H1H1H_1H1H1H_1

3
通过逻辑回归生成比值比置信区间的不同方法
我正在研究如何根据逻辑回归中获得的系数为比值比构建95%的置信区间。因此,考虑逻辑回归模型, log(p1−p)=α+βxlog⁡(p1−p)=α+βx \log\left(\frac{p}{1 - p}\right) = \alpha + \beta x \newcommand{\var}{\rm Var} \newcommand{\se}{\rm SE} 这样,对于对照组,x=0x=0x = 0,对于病例组,x=1x=1x = 1。 我已经读过,最简单的方法是为\ beta构造95%CI,ββ\beta然后我们应用指数函数,即 β^±1.96×SE(β^)→exp{β^±1.96×SE(β^)}β^±1.96×SE(β^)→exp⁡{β^±1.96×SE(β^)} \hat{\beta} \pm 1.96\times \se(\hat{\beta}) \rightarrow \exp\{\hat{\beta} \pm 1.96\times \se(\hat{\beta})\} 我的问题是: 证明该程序合理的理论原因是什么?我知道odds ratio=exp{β}odds ratio=exp⁡{β}\mbox{odds ratio} = \exp\{\beta\}并且最大似然估计是不变的。但是,我不知道这些元素之间的联系。 增量法是否应该产生与先前步骤相同的95%置信区间?使用增量法 exp{β^}∼˙N(β, exp{β}2Var(β^))exp⁡{β^}∼˙N(β, exp⁡{β}2Var(β^))\exp\{\hat{\beta}\} \dot{\sim} N(\beta,\ \exp\{\beta\}^2 \var(\hat{\beta})) 然后, exp{β^}±1.96×exp{β}2Var(β^)−−−−−−−−−−−−√exp⁡{β^}±1.96×exp⁡{β}2Var(β^)\exp\{\hat{\beta}\} \pm 1.96\times …

2
使用行增强的Ridge惩罚GLM?
我已经读过可以通过简单地将数据行添加到原始数据矩阵中来实现岭回归,其中每行使用0表示因变量,而平方根或使用0表示自变量。然后为每个自变量添加额外的一行。kkk 我想知道是否有可能针对所有情况(包括逻辑回归或其他GLM)得出证明。


1
R中具有回归样条的Logistic回归
我一直在根据英国颅脑损伤国家创伤数据库的回顾性数据开发逻辑回归模型。关键结果是30天死亡率(称为“生存”度量)。在以前的研究中,已公开证据表明对结果有重大影响的其他措施包括: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

3
使用
简介:是否有任何统计理论支持使用(自由度基于残差)进行逻辑回归系数检验,而不是标准正态分布检验?Ťtt 不久前,我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时,在默认设置下,将使用分布而不是标准正态分布来测试逻辑回归系数。1即,GLIMMIX报告与所述比率的柱β 1 / √Ťtt1个1^1(我将称之为Ž在这一问题的其余部分),但也报道了“自由度”一栏,以及一个p基于假设-值吨分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部,我提供了一些R和SAS代码和输出以进行演示和比较。2β^1个/ var (β^1个)------√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}žzzpppŤttzzz22^2 这让我感到困惑,因为我认为对于逻辑回归等广义线性模型,在这种情况下没有统计理论支持的使用。相反,我以为我们对此案了解的是ttt 是“近似”正态分布的;zzz 对于小样本量,这种近似值可能会很差; 但是,不能像我们在正态回归的情况下那样假设具有t分布。zzzttt 现在,在直觉上,对我来说似乎合理的是,如果近似正态分布,则实际上它可能具有某种基本呈“ t状”的分布,即使它不完全是t。因此,在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点:zzzttttttttt 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布?zzzttt 如果没有这样的理论,那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。ttt 更笼统地说,除了直觉上基本上是明智的直觉之外,对GLIMMIX在这里所做的事情是否有任何实际的支持? R代码: summary(glm(y ~ x, data=dat, family=binomial)) R输出: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.