Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

2
Logistic回归功效分析的仿真-设计的实验
这个问题是对@Greg Snow给出的答案的回应,该答案是我提出的有关使用Logistic回归和SAS进行功率分析的问题Proc GLMPOWER。 如果我正在设计一个实验并将对结果进行析因逻辑回归分析,该如何使用模拟(和此处)进行功效分析? 这是一个简单的示例,其中有两个变量,第一个具有三个可能的值{0.03,0.06,0.09},第二个是虚拟指示器{0,1}。对于每种组合,我们估计每种组合的响应率(响应者数量/投放市场的人数)。此外,我们希望因子的第一个组合的数量是其他因子的3倍(可以认为是相等的),因为该第一个组合是我们尝试过的真实版本。这种设置类似于链接问题中提到的SAS课程中给出的设置。 用于分析结果的模型将是具有主要影响和相互作用(响应为0或1)的逻辑回归。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) 如何模拟用于此模型的数据集进行功率分析? 当我通过SAS运行时Proc GLMPOWER(使用STDDEV =0.05486016 对应于sqrt(p(1-p))其中p是显示的响应率的加权平均值): data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …

2
Logistic回归模型不收敛
我有一些关于航空公司航班的数据(在名为的数据框中flights),我想看看飞行时间是否对到达时间明显延迟(意味着10分钟或更长时间)有任何影响。我以为我会使用逻辑回归,将飞行时间作为预测指标,并将每次飞行是否都显着延迟(一堆伯努利)作为响应。我用下面的代码... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...但是得到以下输出。 > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …
39 r  logistic  separation 

3
在进行逻辑回归之前需要标准化吗?
我的问题是,在拟合逻辑回归之前,我们是否需要标准化数据集以确保所有变量在[0,1]之间具有相同的标度。公式为: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 我的数据集有2个变量,它们针对两个通道描述相同的事物,但是数量不同。假设这是两家商店的顾客拜访次数,这里是顾客是否购物。因为客户可以在购物之前访问两个商店,或者两次访问第一家商店,所以第二次访问一次。但是第一家商店的客户访问总次数是第二家商店的10倍。当我适合这个逻辑回归,没有标准化, coef(store1)=37, coef(store2)=13; 如果我将数据标准化,则coef(store1)=133, coef(store2)=11。这样的事情。哪种方法更有意义? 如果我适合决策树模型怎么办?我知道树结构模型不需要标准化,因为模型本身会以某种方式对其进行调整。但是请与大家一起检查。

2
解释R的输出以进行二项式回归
对于二项式数据测试,我是一个新手,但需要做一个,现在我不确定如何解释结果。y变量(响应变量)是二项式的,解释因素是连续的。这是我总结结果时得到的: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

3
比较SVM和Logistic回归
有人可以给我一些何时选择SVM或LR的直觉吗?我想了解两者的超平面的优化标准之间有何区别的直觉,其各自的目标如下: SVM:尝试使最接近的支持向量之间的裕度最大化 LR:最大化后类可能性 让我们考虑SVM和LR的线性特征空间。 我已经知道一些差异: SVM是确定性的(但我​​们可以使用Platts模型进行概率评分),而LR是概率性的。 对于内核空间,SVM更快(仅存储支持向量)

1
为什么我的p值在逻辑回归输出,卡方检验和OR的置信区间之间有所不同?
我建立了Logistic回归,其中在接受治疗后(Curevs. No Cure)治愈了结果变量。本研究中所有患者均接受治疗。我有兴趣查看是否患有糖尿病与该结局有关。 在R中,我的逻辑回归输出如下所示: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees of freedom Residual deviance: 452.75 …

2
Logistic回归与LDA作为两类分类器
我正在努力解决线性判别分析和Logistic回归之间的统计差异。我的理解是正确的,对于两类分类问题,LDA预测了两个法线密度函数(每个类一个),它们在它们相交处创建了线性边界,而逻辑回归仅预测了两类之间的对数奇数函数。创建一个边界,但不为每个类假设密度函数?

2
多项式Lo​​gistic回归与一对一二值Logistic回归
可以说,我们有一个因变量,其类别和自变量集很少。 ÿYY 相对于二元logistic回归集(即one-vs-rest方案),多项logistic回归有什么优势?通过组的二元逻辑回归我的意思是为每个类别我们建立单独的二元逻辑回归模型与目标= 1时Ŷ = ÿ 我,否则为0。ÿ一世∈ ÿyi∈Yy_{i} \in Yÿ= y一世Y=yiY=y_{i}

1
逻辑回归:方差卡方检验与系数的显着性(R中的anova()vs summary())
我有一个8个变量的逻辑GLM模型。我在R中进行了卡方检验,anova(glm.model,test='Chisq')当在测试的顶部进行排序时,其中两个变量可预测,而在底部的排序中则没有那么多。在summary(glm.model)表明它们的系数不显着(高p值)。在这种情况下,变量似乎并不重要。 我想问问哪个是变量显着性更好的检验-模型摘要中的系数显着性或来自的卡方检验anova()。还有-什么时候一个比另一个更好? 我想这是一个广泛的问题,但是任何有关考虑因素的建议将不胜感激。


1
下采样会改变逻辑回归系数吗?
如果我有一个非常罕见的阳性类别的数据集,并且对阴性类别进行了下采样,然后执行逻辑回归,是否需要调整回归系数以反映我改变了阳性类别的患病率这一事实? 例如,假设我有一个包含4个变量的数据集:Y,A,B和C。Y,A和B是二进制的,C是连续的。对于11,100个观察,Y = 0,对于900个Y = 1: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) 给定A,B和C,我拟合了logistic回归来预测Y。 dat1 <- data.frame(Y, A, …

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
Hosmer-Lemeshow测试中的自由度
逻辑回归模型的Hosmer-Lemeshow检验(HLT)的拟合优度(GOF)的检验统计量定义如下: 然后将样本分为十分位数,每十分位数计算以下数量:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i,即中观察到的阳性病例;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i),即在观察到的否定案例;DdDdD_d E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_i,即,十分位数中阳性案例的估计数;DdDdD_d E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i),即,十分位数中否定情况的估计数量;DdDdD_d 其中是第个观测值的观测二进制结果,是该观测值的估计概率。我yiyiy_iiiiπ^iπ^i\hat{\pi}_i 然后将测试统计量定义为: X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g−−−−−−−−−−√)2,X2=∑h=01∑g=1d((Ohg−Ehg)2Ehg)=∑g=1d(O1g−ngπ^gng(1−π^g)π^g)2,X^2 = \displaystyle \sum_{h=0}^{1} \sum_{g=1}^d \left( \frac{(O_{hg}-E_{hg})^2}{E_{hg}} \right)= \sum_{g=1}^d \left( \frac{ O_{1g} - n_g \hat{\pi}_g}{\sqrt{n_g (1-\hat{\pi}_g) \hat{\pi}_g}} \right)^2, 其中π^Gπ^G\hat{\pi}_g是在等分的平均估计的概率GGg和让ñGñGn_g是公司在等分的数量。 根据Hosmer-Lemeshow(请参阅此链接),此统计数据(在某些假设下)具有χ2χ2\chi^2分布,自由度为(d− 2 …

2
逻辑回归:伯努利与二项式响应变量
我想使用以下二项式响应并以和作为预测因子进行逻辑回归。 X1个X1个X_1X2X2X_2 我可以采用以下格式提供与伯努利回复相同的数据。 逻辑回归输出用于这2个数据集是大多相同的。偏差残差和AIC不同。(两种情况下零偏差和残余偏差之间的差异相同,为0.228。) 以下是R的回归输出。这些数据集称为binom.data和bern.data。 这是二项式输出。 Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.