Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归


6
线性回归或有序逻辑回归预测葡萄酒等级(从0到10)
我从这里获得了葡萄酒数据,该数据由11个数值自变量组成,每个条目的从属评分与0到10之间的值相关。这使它成为使用回归模型研究变量与关联变量之间关系的绝佳数据集。评分。但是,线性回归是否合适,还是使用多项式/有序逻辑回归更好? 对于特定类别,逻辑回归似乎更好,即没有连续因变量,但(1)有11个类别(有点太多?),(2)经检查,这些类别中只有6-7个数据,即其余5-4类别在数据集中没有示例。 另一方面,线性回归应该线性地估计0-10之间的等级,这似乎更接近我要找出的数值。但是因变量在数据集中不是连续的。 哪种方法更好?注意:我正在使用R进行分析 编辑,解决答案中提到的一些要点: 没有业务目标,因为这实际上是针对大学课程的。任务是分析我认为合适的选择数据集。 收视率的分布看起来很正常(直方图/ qq图)。数据集中的实际值在3到8之间(即使从技术上来说为0到10)。

2
是否存在逻辑回归的iid假设?
是否存在逻辑回归的响应变量的iid假设? 例如,假设我们有数据点。响应似乎来自具有的伯努利分布。因此,我们应该有具有不同参数伯努利分布。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp 因此,它们是“独立的”,但不是“相同的”。 我对吗? PS。我从“机器学习”文献中学到了逻辑回归,在该文献中我们优化了目标函数并检查了它是否适合测试数据,而没有过多地讨论假设。 我的问题从这篇文章开始理解广义线性模型中的链接函数,在这里我尝试了解有关统计假设的更多信息。

3
如何计算逻辑回归系数的标准误差
我正在使用Python的scikit-learn来训练和测试逻辑回归。 scikit-learn返回自变量的回归系数,但不提供系数的标准误差。我需要这些标准误差来为每个系数计算Wald统计量,然后依次将这些系数进行比较。 我发现了一种关于如何计算逻辑回归系数的标准误差的描述(此处),但是很难理解。 如果您碰巧知道有关如何计算这些标准误差的简单明了的解释,并且/或者可以为我提供一个简单的解释,我将不胜感激!我并不是指特定的代码(尽管请随意发布任何可能有用的代码),而是对所涉及步骤的算法解释。

2
GLMNET的重要性不一
我正在研究使用套索作为选择特征并将预测模型与二值目标拟合的方法。以下是我正在尝试使用正则化逻辑回归的方法的一些代码。 我的问题是我得到一组“重要”变量,但是我能够对这些变量进行排序以估计每个变量的相对重要性吗?为此,可以通过绝对值对系数进行标准化(我知道它们通过coef函数以原始可变比例显示)?如果是这样,如何进行(使用x和y的标准偏差)标准化回归系数。 样本代码: library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), y=datasetTest[,2], family="binomial", nfolds=10, type.measure="deviance", alpha=1 ) #values of lambda used histogram(cv.result$lambda) #plot of …


2
逻辑回归和t检验的功效如何比较?
逻辑回归和t检验的功效是否相等?如果是这样的话,它们应该是“等效数据密度”,这意味着在给定的固定alpha为0.05的情况下,相同数量的基础观测值会产生相同的功效。考虑两种情况: [参数t检验]:从二项式观察中抽取30个抽签,然后将所得值取平均值。对于A组(发生的二项式Pr为0.70),此操作完成30次;对于B组(发生的二项式Pr为0.75),完成30次。每组产生30个均值,代表从二项式分布中得出的1800次抽奖的摘要。进行58df t检验以比较均值。 [逻辑回归]:使用代表组成员身份的虚拟编码斜率执行逻辑回归,并进行1800次抽奖。 我的问题分为两部分: 给定的alpha为0.05,这些方法的功效是相同还是不同?为什么?我如何证明呢? 问题1的答案是否对进入t检验的样本量,t检验中每个组的样本量,基本的二项式概率或其他因素敏感?如果是这样,我怎么能(不用模拟)知道功率确实不同,什么样的变化会产生什么样的功率变化?或者,提供制定出的R代码,以使用仿真解决问题。

3
如何将序数分类变量作为自变量处理
我正在使用Logit模型。我的因变量是二进制。但是,我有一个独立变量,该变量是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor。因此,它是序数(“定量分类”)。我不确定如何在模型中处理此问题。我正在使用gretl。 [@ttnphns的注:尽管问题说模型是logit的(因为因数是分类的),但关键问题-序数自变量-基本上是相同的,无论是分类还是定量的因数。因此,这个问题也与线性回归同样相关-与逻辑回归或其他logit模型一样。]

2
用R计算对数回归的系数
在多元线性回归中,可以通过以下公式找出系数。 b = (X′X)− 1(X′)Yb=(X′X)-1个(X′)ÿb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta 例如: > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- as.matrix(y) > X …

2
如何从逻辑回归中解释系数?
我有以下概率函数: 概率= 11 + e- ž概率=1个1个+Ë-ž\text{Prob} = \frac{1}{1 + e^{-z}} 哪里 ž= B0+ B1个X1个+ ⋯ + BñXñ。ž=乙0+乙1个X1个+⋯+乙ñXñ。z = B_0 + B_1X_1 + \dots + B_nX_n. 我的模特看起来像 镨(ÿ= 1 )= 11 + 经验(- [ - 3.92 + 0.014 × (性别)] )镨(ÿ=1个)=1个1个+经验值⁡(-[-3.92+0.014×(性别)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{gender})]\right)} 我知道拦截(3.92)的含义,但是现在我知道如何解释0.014。这些还是对数赔率,赔率比率,还是我现在可以断言,每增加一次赔率变化都是性别,女性获胜的可能性比男性高0.014。基本上,我该如何解释0.014? 基本上,我想采用概率函数并针对要编写的特定程序在Java中实际实现,但是我不确定我是否正确理解了在Java中实现该函数的功能。 Java代码示例: double …


1
为什么Cox比例风险模型中的p值通常比逻辑回归中的p值高?
我一直在学习Cox比例风险模型。我有很多适合逻辑回归模型的经验,因此,为了建立直觉,我一直在比较coxphR“ survival”中使用的模型glm与配合使用的逻辑回归模型family="binomial"。 如果我运行代码: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 我分别获得了0.0419和0.0254年龄的p值。同样,如果我使用性别作为预测因子,则可以选择是否带有年龄。 我感到困惑,是因为我认为,拟合模型时考虑到流逝的时间比将死亡视为二进制结果会带来更多的统计能力,而p值似乎与统计能力较小的人一致。这里发生了什么?

5
了解哪些功能对逻辑回归最重要
我建立了一个逻辑回归分类器,该分类器对我的数据非常准确。现在,我想更好地理解它为什么运行得如此出色。具体来说,我想对哪些功能做出最大的贡献(哪些功能最重要)进行排名,并且理想情况下,量化每个功能对整个模型的准确性有多大的贡献(或类似的东西)。我该怎么做呢? 我首先想到的是根据系数对它们进行排名,但是我怀疑这是不对的。如果我有两个同样有用的功能,但是第一个的散布是第二个的十倍,那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性? 请注意,我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反,我试图了解每个功能在使分类器准确无误方面的价值。另外,我的目标不是执行特征选择或构建具有较少特征的模型,而是试图为学习的模型提供一些“可解释性”,因此分类器不仅仅是一个不透明的黑匣子。

3
使用Hosmer等人的模型建立和选择。2013。R中的应用逻辑回归
这是我在StackExchange上的第一篇文章,但是我已经将它用作一种资源已经有一段时间了,我将尽我所能来使用适当的格式并进行适当的编辑。另外,这是一个多部分的问题。我不确定是否应该将问题分为几个不同的帖子,或者只是一个。由于所有问题均来自同一文本的一个部分,因此我认为将其发布为一个问题更为相关。 我正在研究大型哺乳动物物种的栖息地用途,以作为硕士论文。该项目的目的是为森林管理者(最有可能不是统计学家)提供一个实用的框架,以评估他们管理的与该物种有关的土地上的栖息地质量。这种动物相对难以捉摸,是栖息地专家,通常位于偏远地区。关于物种的分布,尤其是在季节方面,进行的研究相对较少。数只动物装有GPS项圈,为期一年。从每只动物的GPS项圈数据中随机选择一百个位置(夏季50个,冬季50个)。此外,在每只动物的家园范围内随机产生50个点,以作为“可用”或“伪缺”位置。 对于每个位置,都在田间采样了几个栖息地变量(树木直径,水平覆盖物,粗糙的木屑等),并通过GIS远程采样了一些变量(海拔,道路距离,崎ness性等)。该变量除具有7个级别的1个类别变量外,大部分都是连续的。 我的目标是使用回归建模来构建资源选择函数(RSF),以对资源单元使用的相对概率进行建模。我想为动物种群(设计类型I)以及每只动物种群(设计类型III)建立一个季节性(冬季和夏季)RSF。 我正在使用R进行统计分析。 我一直在使用的主要文字是… “ Hosmer,DW,Lemeshow,S.和Sturdivant,RX2013。应用逻辑回归。Wiley,Chicester”。 Hosmer等人的大多数示例。使用STATA,我也一直在使用以下2个文本作为R的参考。 “ Crawley,MJ,2005年。统计数据:使用RJ Wiley的介绍,Chichester,西萨塞克斯郡,英格兰。” “植物,RE2012。使用R. CRC出版社,GBR,伦敦的生态和农业空间数据分析。” 我目前正在按照Hosmer等人的第4章中的步骤进行操作。进行“有目的的协变量选择”,并对该过程有一些疑问。我在下面的文字中概述了前几个步骤,以帮助回答我的问题。 步骤1:对每个自变量进行单变量分析(我使用了单变量logistic回归)。单变量检验的p值小于0.25的任何变量都应包含在第一个多变量模型中。 步骤2:拟合包含所有在步骤1中确定要包含的协变量的多变量模型,并使用其Wald统计量的p值评估每个协变量的重要性。在传统意义上不起作用的变量应予以消除,并采用新模型。应使用偏似然比检验将新的较小模型与旧的较大模型进行比较。 步骤3:将较小模型中的估计系数值与大型模型中的相应值进行比较。任何系数的幅度发生显着变化的变量都应重新添加到模型中,因为从提供需要调整模型中剩余变量影响的意义上来说,这一点很重要。循环执行步骤2和3,直到似乎所有重要变量都包含在模型中,而排除的变量在临床和/或统计学上并不重要。Hosmer等。使用“ delta-beta-hat-percent ”来衡量系数幅度的变化。他们提出了显着的变化,即> 20%的delta-beta-hat-percent。Hosmer等。将delta-beta-hat-percent定义为 。其中θ1是从较小的模型系数和β1是从较大的模型系数。Δβ^%=100θ^1−β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} 步骤4:将步骤1中未选择的每个变量一次添加到步骤3结束时获得的模型中,并通过Wald统计p值或偏似然比检验检验其重要性,如果它是分类的具有两个以上级别的变量。这一步对于识别与结果没有显着关系但在存在其他变量的情况下起重要作用的变量至关重要。我们将第4步末的模型称为主要主效应模型。 步骤5-7:我现在还没有进展,所以我暂时不做这些步骤,或者将它们保存下来以解决其他问题。 我的问题: 在第2步中,什么是传统的显着性水平,p值<0.05或更大,例如<.25? 再次在第2步中,我要确保用于部分似然测试的R代码正确无误,并且要确保我正确解释了结果。这是我一直在做的...anova(smallmodel,largemodel,test='Chisq')如果p值显着(<0.05),则将变量添加回模型,如果不重要,则继续删除吗? Δβ^%Δβ^%\Delta\hat{\beta}\%Δβ^%Δβ^%\Delta\hat{\beta}\% Δβ^%Δβ^%\Delta\hat{\beta}\% is correct. I have been using the following code. If there is a package that will do this for me or …

1
Logistic回归:如何获得饱和模型
我刚刚了解了逻辑回归的偏差度量。但是,对我来说,称为饱和模型的部分尚不清楚。 我在Google上进行了广泛的搜索,但没有结果回答我的问题。到目前为止,我发现一个饱和模型对每个观测值都有一个参数,因此可以实现完美拟合。这对我来说很清楚。但是:(饱和模型的)拟合值还等于观测值。 由于从我所知,被用于分类逻辑回归给定的观察到的数据与额外的标签协变量。但是,偏差度量采用的是概率,而不是实际的标号。一种方法是将计算出的逻辑回归的预测概率与观察到的概率进行比较。但是,由于只给出了标签而不是概率,我很困惑如何从这些标签构建饱和模型?ÿ∈ { 0 ,1 }ÿ∈{0,1个}y \in \{0,1\}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.