Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

2
如何将逻辑回归和随机森林的结果结合起来?
我是机器学习的新手。我在同一数据集上应用了逻辑回归和随机森林。因此,我得到了可变的重要性(逻辑回归的绝对系数和随机森林的可变重要性)。我正在考虑将两者结合起来以获得最终可变的重要性。谁能分享他/她的经验?我已经检查了装袋,提升,合奏建模,但是这些不是我所需要的。他们更多地是在跨重复项合并同一模型的信息。我正在寻找的是结合多个模型的结果。


2
用多个预测变量解释逻辑回归模型
我执行了多元逻辑回归分析,因变量Y是进入某特定时期内在疗养院中的死亡,并得到以下结果(请注意,变量开始于A连续值,而变量开始于连续值B): Call: glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial) Deviance Residuals: Min 1Q Median 3Q Max -1.0728 -0.2167 -0.1588 -0.1193 3.7788 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 20.048631 6.036637 3.321 0.000896 *** A1 0.051167 …
12 r  regression  logistic 

3
如何为多分类器建立混淆矩阵?
我有6个班级的问题。因此,我构建了一个多类分类器,如下所示:对于每个类,我都有一个Logistic回归分类器,使用“一个vs全部”,这意味着我有6个不同的分类器。 我可以为我的每个分类器报告一个混淆矩阵。但是,我想报告所有分类器的混淆矩阵,正如我在此处的许多示例中所看到的那样。 我该怎么做?我是否必须使用“一对一”算法而不是“一对一”算法来更改分类策略?因为在这些混淆矩阵上,报告指出了每个类别的误报。 多类混淆矩阵的示例 我想找到错误分类的物品数量。在第一行中,有137个类别1的示例被分类为1类,而13个类别1的示例被分类为2类。如何获得这个号码?

2
提升Logistic回归模型
Adaboost是一种集成方法,它结合了许多弱学习者,形成了一个强大的学习者。我已经阅读过的所有关于adaboost的例子都将决策树/树用作弱学习者。我可以在adaboost中使用其他弱学习者吗?例如,如何实现adaboost(通常为boosting)来增强logistic回归模型? 分类树和逻辑回归的主要区别之一是前者输出类别(-1,1),而逻辑回归输出概率。一个想法是从一组特征中选择最佳特征X,并选择一个阈值(0.5?)将概率转换为类,然后使用加权逻辑回归来找到下一个特征,等等。 但是我认为,存在一种通用的算法来促进不同的弱学习者,而不是那些输出概率的决策树桩。我相信Logitboost是我的问题的答案,但我尝试阅读“ Additive Logistic Regression”(加性Logistic回归)论文,并陷入了中间。

1
泊松分布数据的逻辑回归
从一些机器学习笔记中讨论了一些区分性分类方法,特别是逻辑回归,其中y是类标签(0或1),而x是数据,据说: 如果x|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0),并且x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1),则p(y|x)p(y|x)p(y|x)将是逻辑对数。 为什么会这样呢?

3
一个人应该使用什么损失函数来获得高精度或高召回率的二进制分类器?
我正尝试制作一个很少出现的物体(在图像中)检测器,计划使用在滑动/调整大小的窗口中应用的CNN二进制分类器。我已经构建了平衡的1:1正负训练和测试集(在这种情况下,这样做是对的吗?),分类器在测试集上的准确性很好。现在,我想控制分类器的召回率/精度,例如,它不会错误地标记过多的多数类事件。 明显的(对我来说)解决方案是使用与现在使用的相同的逻辑损失,但是通过将两种情况之一中的损失乘以某个常数,可以将I型和II型权重的误差乘以不同,这可以调整。这样对吗? PS第二个想法是,这等同于对一些训练样本进行加权。我认为,只增加一个班级就能达到相同的效果。

2
贝叶斯logit模型-直观的解释?
我必须承认,我以前从未在本科或研究生班上听说过该词。 Logistic回归为贝叶斯是什么意思?我正在寻找从常规物流到贝叶斯物流的过渡解释,类似于以下内容: 这是线性回归模型的方程:E(y)=β0+β1x1+...+βnxnË(ÿ)=β0+β1个X1个+。。。+βñXñE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n。 这是逻辑回归模型中的方程式:。当y是绝对值时完成此操作。ln(E(y)1−E(y))=β0+β1x1+...+βnxnln⁡(Ë(ÿ)1个-Ë(ÿ))=β0+β1个X1个+。。。+βñXñ\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n 我们要做的是将更改为。E(y)Ë(ÿ)E(y)ln(E(y)1−E(y))ln⁡(Ë(ÿ)1个-Ë(ÿ))\ln(\frac{E(y)}{1-E(y)}) 那么在贝叶斯逻辑回归中对逻辑回归模型做了什么?我猜想这与方程式无关。 这本书的预览似乎定义了,但我不太了解。这些先前的可能性是什么?是什么?有人可以用另一种方式解释本书的这一部分或贝叶斯逻辑模型吗?αα\alpha 注意:这是我之前问过的,但回答得不是很好。

2
通过逻辑回归和对数线性回归估计的系数何时有所不同?
在对连续比例建模时(例如,在调查样方上的比例植被覆盖,或从事某项活动的时间比例),逻辑回归被认为是不合适的(例如,Warton&Hui(2011)反正弦是精氨酸:生态学中比例的分析)。相反,对数转换比例后的OLS回归或beta回归更为合适。 使用R lm和时,在什么条件下对数线性回归和对数回归的系数估计不同glm? 以下面的模拟数据集为例,我们可以假定它们p是我们的原始数据(即连续比例,而不是表示):ñS ^ ü ç ç è 小号小号Ë 小号ñ吨ř 我一升小号ñsüCCËssËsñŤ[R一世一种升s{n_{successes}\over n_{trials}} set.seed(1) x <- rnorm(1000) a <- runif(1) b <- runif(1) logit.p <- a + b*x + rnorm(1000, 0, 0.2) p <- plogis(logit.p) plot(p ~ x, ylim=c(0, 1)) 拟合对数线性模型,我们获得: summary(lm(logit.p ~ x)) ## ## Call: ## lm(formula = …
11 r  regression  logistic 

2
如何用p量化Logistic回归中的相对变量重要性?
假设使用逻辑回归模型来预测在线购物者在单击一组在线广告(预测变量:Ad1,Ad2和Ad3)后是否将购买产品(结果:购买)。 结果是一个二进制变量:1(已购买)或0(未购买)。预测变量也是二进制变量:1(单击)或0(未单击)。因此,所有变量的比例都相同。 如果得出的Ad1,Ad2和Ad3的系数分别为0.1、0.2和03,则可以得出结论:Ad3比Ad2更重要,而Ad2比Ad1更重要。此外,由于所有变量的大小相同,因此标准化和非标准化系数应该相同,并且我们可以进一步得出结论,就其对logit(对数奇数)水平的影响而言,Ad2比Ad1重要两倍。 但是实际上,我们更关心如何根据p(购买概率)级别而不是logit(log-odds)水平比较和解释变量的相对重要性。 因此,问题是:是否有任何方法可以根据p量化这些变量的相对重要性?

2
在逻辑回归中可视化类别的影响及其普遍性的最佳方法是什么?
我需要使用民意调查数据来介绍有关候选人投票的主要预测因子的信息。我已经使用我关心的所有变量进行了逻辑回归,但是我找不到一种很好的方式来显示此信息。 我的客户不仅在乎效果的大小,而且在乎效果的大小与具有此类属性的总体大小之间的相互作用。 如何在图形中处理呢?有什么建议么? 这是一个例子: 当候选变量中因变量为Vote / Not时,变量SEX(Male = 1)的为2.3,这是取幂并被视为比值比或概率后的大数。但是,进行此调查的社会只有30%的男性。因此,尽管人非常支持该候选人,但对于试图赢得多数选举的候选人而言,他们的人数并不重要。ββ\beta

4
逻辑回归和拐点
我们有带有二进制结果和一些协变量的数据。我使用逻辑回归对数据进行建模。只是简单的分析,没什么特别的。最终输出应该是剂量响应曲线,在该曲线中,我们显示了特定协变量的概率如何变化。像这样: 我们从内部审核员(不是纯粹的统计学家)那里收到一些批评,选择逻辑回归。逻辑回归假设(或定义)S形曲线在概率标度上的拐点处于概率0.5。他认为,没有理由假定拐点确实在0.5的概率上,我们应该选择一个不同的回归模型,该模型允许拐点发生变化,以使实际位置受数据驱动。 起初我因为他的论点而措手不及,因为我从未考虑过这一点。我没有任何论点说明为什么将拐点设为0.5是合理的。经过研究后,我仍然没有这个问题的答案。 我遇到了5参数逻辑回归,其中拐点是一个附加参数,但似乎在产生具有连续结果的剂量反应曲线时通常使用此回归模型。我不确定是否以及如何将其扩展为二进制响应变量。 我想我的主要问题是为什么或何时可以确定逻辑回归的拐点为0.5?有关系吗 我从未见过有人适合逻辑回归模型并明确讨论拐点问题。是否有其他方法可以创建拐点不一定为0.5的剂量反应曲线? 为了完整起见,用于生成上面图片的R代码: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat) newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4))) pp <- predict(logit, newdata, type = "response", se.fit = …

3
逻辑回归中变量的重要性
我可能正在处理一个可能已经解决了一百次的问题,但是我不确定在哪里可以找到答案。 当使用逻辑回归时,给定许多特征并尝试预测二进制分类值,我对选择可以很好地预测的特征子集感兴趣。 y yX1个,。。。,Xñx1,...,xnx_1,...,x_nÿyyÿyy 是否可以使用类似于套索的程序?(我只看到套索用于线性回归。) 查看拟合模型的系数是否表明了不同特征的重要性? 编辑-看到一些答案后的澄清: 当我指的是拟合系数的大小时,我指的是那些拟合到归一化(均值0和方差1)特征的系数。否则,正如@probabilityislogic指出的那样,1000x的重要性似乎不如x。 我对仅寻找最佳k子集(如@Davide所提供的)不感兴趣,而是权衡不同功能之间的相对重要性。例如,一个特征可能是“年龄”,而另一个特征可能是“年龄> 30”。它们的增量重要性可能很小,但两者都可能很重要。

1
如何仅通过5到7个数据点来估计逻辑回归的上限?
我有。对于到的估计,我使用本文的公式:John非线性回归和非线性最小二乘法 在本文中,通过查看数据来估计。如果我这样做,即使我只有三点,它也能正常工作。由此我可以计算出另外两个。我用R中的nls()和C#中的LevenbergMarquardt测试了我的参数。他们返回的模型令人满意。 β1β3y=β11+exp(β2+β3∗x)y=β11+exp⁡(β2+β3∗x)y = \frac{\beta_1}{1 + \exp(\beta_2 + \beta_3 * x)}β1β1\beta_1β3β3\beta_3β1β1\beta_1 问题是我不想查看数据来获得的良好估计量,而是希望我的程序对其进行计算。一段时间以来,我使用的值比我的最大值(在\ max * 1.1和\ max * 1.5之间的值)高一点。只要这些点覆盖了函数的大部分,此方法就可以正常工作。数据点位于曲线“顶部”的某个位置,但是当它们全部来自拐点“下方”时,此估计量肯定低于应有的水平,因此我无法拟合模型。绝对高于最高点(通过将其乘以高得离谱的值),模型无法以任何有用的方式拟合。β1β1\beta_1max∗1.1max∗1.1\max * 1.1max∗1.5max∗1.5\max * 1.5 测量可能如下所示: x =(40,50,60,70),y =(1000,950,400,200)->易于估计 x =(40,50,60,70),y =(1000,950,800,100)->易于估计 x =(40,50,60,70),y =(500,200,100,50)->估计起来不太容易 我想我可以通过计算给定点的增量并根据其计算上限来找出我在函数中的位置(在“底部”,在“顶部”,在坡度中)。有没有人暗示有更好的解决方案?附加信息:如果无法完成,对我来说,更重要的一点是,可以拟合的测量结果要尽可能地好,并且我接受某些测量结果根本无法拟合的问题。 (尽管我想要在这里发布的C#实现,但我认为问题不取决于语言) 更新(此应用): x是温度值,y是相应的测量值。从本质上讲,它应该看起来像逻辑曲线,在较低温度下具有较高的y值,反之亦然。熔点等于曲线的拐点,随着模型参数的微小变化,其变化很大。 更新(一些由7个数据点组成的数据,已知拐点为60): //first I made up some data without any noise and enough (13) points …

1
在R中没有比例赔率假设的情况下,如何在序数逻辑回归中固定系数?
我想在R中进行序数逻辑回归,而没有比例赔率假设。我知道可以通过设置vglm()功能直接完成此操作。Rparallel=FALSE 但是我的问题是如何在此回归设置中固定一组特定的系数?例如,假设因变量是离散的和有序和可以取的值,,或3。如果回归变量为X_ {1}和X_ {2},则回归方程为ÿÿYÿ= 1ÿ=1个Y = 1222333X1个X1个X_{1}X2X2X_{2} 升ø 克我吨( P(是≤ 1 ))升ø 克我吨( P(是≤ 2 ))= α1个+ β11X1个+ β12X2= α2+ β21X1个+ β22X2升ØG一世Ť(P(ÿ≤1个))=α1个+β11X1个+β12X2升ØG一世Ť(P(ÿ≤2))=α2+β21X1个+β22X2 \begin{aligned} {\rm logit} \big( P(Y \leq 1) \big) &= \alpha_{1} + \beta_{11}X_{1} + \beta_{12}X_{2} \\ {\rm logit}\big(P(Y \leq 2) \big) &= \alpha_{2} + \beta_{21}X_{1} + \beta_{22}X_{2} \end{aligned} 我想将和为。请让我知道如何实现这一目标。另外,如果不能执行此操作,是否还可以让我知道是否可以在任何其他统计软件中实现?β11β11\beta_{11}β22β22\beta_{22}1个1个1R
11 r  regression  logistic 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.