Questions tagged «logit»

一般指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
logit值实际上是什么意思?
我有一个logit模型,在很多情况下,这个模型的数字在0到1之间,但是我们怎么解释呢? 让我们以0.20的logit作为例子 我们能否断言一个案例属于B组vs A组的可能性为20%? 这是解释logit值的正确方法吗?



3
如何在R中建立和估计多项式logit模型?
我在JMP中运行了一个多项式logit模型,并返回了结果,其中包括AIC以及每个参数估计值的卡方p值。该模型具有一个分类结果和7个分类解释变量。 然后,我使用nnet包中的multinom函数来拟合我认为可以在R中构建相同模型的内容。 该代码基本上是: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); 但是,两者给出的结果不同。对于JMP,AIC为2923.21,nnet::multinom对于AIC为3116.588。 所以我的第一个问题是:其中一个模型有误吗? 第二件事是,JMP为我需要的每个参数估计值提供卡方的p值。在多项式fit1上运行摘要不会-仅给出估计值,AIC和偏差。 因此,我的第二个问题是:有没有一种方法可以获取模型的p值并在使用时进行估算nnet::multinom? 我知道mlogit是另一个R包,它的输出看起来包括p值。但是,我无法mlogit使用我的数据运行。我认为我的数据格式正确,但是它说我的公式无效。我使用了与以前相同的公式multinom,但似乎使用管道需要使用不同的格式,但我不知道它是如何工作的。 谢谢。
20 r  logistic  multinomial  logit  jmp 

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


2
如何从逻辑回归中解释系数?
我有以下概率函数: 概率= 11 + e- ž概率=1个1个+Ë-ž\text{Prob} = \frac{1}{1 + e^{-z}} 哪里 ž= B0+ B1个X1个+ ⋯ + BñXñ。ž=乙0+乙1个X1个+⋯+乙ñXñ。z = B_0 + B_1X_1 + \dots + B_nX_n. 我的模特看起来像 镨(ÿ= 1 )= 11 + 经验(- [ - 3.92 + 0.014 × (性别)] )镨(ÿ=1个)=1个1个+经验值⁡(-[-3.92+0.014×(性别)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{gender})]\right)} 我知道拦截(3.92)的含义,但是现在我知道如何解释0.014。这些还是对数赔率,赔率比率,还是我现在可以断言,每增加一次赔率变化都是性别,女性获胜的可能性比男性高0.014。基本上,我该如何解释0.014? 基本上,我想采用概率函数并针对要编写的特定程序在Java中实际实现,但是我不确定我是否正确理解了在Java中实现该函数的功能。 Java代码示例: double …

3
R中的glm函数使用哪种优化算法?
可以使用以下代码在R中执行logit回归: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 看来优化算法已经收敛-存在有关费舍尔评分算法的步数的信息: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

1
有序逻辑回归中的负系数
假设我们有序数响应和我们认为的一组变量将解释。然后,我们对(响应)进行(设计矩阵)的有序逻辑回归。y:{Bad, Neutral, Good}→{1,2,3}y:{Bad, Neutral, Good}→{1,2,3}y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}X:=[x1,x2,x3]X:=[x1,x2,x3]X:=[x_1,x_2,x_3]yyyXXXyyy 假设的估计系数称为,在有序logistic回归中为。如何解释的优势比(OR)?β 1 - 0.5 Ë - 0.5 = 0.607x1x1x_1β^1β^1\hat{\beta}_1−0.5−0.5-0.5e−0.5=0.607e−0.5=0.607e^{-0.5} = 0.607 我说“在一个增加1个单位,其他条件不变,观察的几率是观察的时间赔率,并在相同的变化,观察的几率是观察的时间赔率 “?x1x1x_1GoodGood\text{Good}0.6070.6070.607Bad∪NeutralBad∪Neutral\text{Bad}\cup \text{Neutral}x1x1x_1Neutral∪GoodNeutral∪Good\text{Neutral} \cup \text{Good}0.6070.6070.607BadBad\text{Bad} 在我的教科书或Google中找不到负系数解释的任何示例。

2
计算逻辑回归的置信区间
我正在使用二项式逻辑回归来确定是否暴露has_x或has_y影响用户点击某事的可能性。我的模型如下: fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) 这是我模型的输出: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.504737 …


2
为什么要在beta回归中使用logit链接?
最近,我对实现beta回归模型感兴趣,其结果是成比例的。请注意,此结果将不适合二项式上下文,因为在此上下文中没有有意义的离散“成功”概念。实际上,结果实际上是持续时间的一部分。分子是某个条件处于活动状态时的秒数,在该条件有资格处于活动状态的总秒数。我为这些变化感到抱歉,但我不想过多地关注这个精确的上下文,因为我意识到,除了beta回归外,还有多种方法可以对这种过程进行建模,而现在我对理论更加感兴趣我在尝试实施这种模型时遇到的问题(尽管我当然是, 无论如何,我能够找到的所有资源都表明,使用logit(或probit / cloglog)链接通常适合使用beta回归,并且将参数解释为对数奇数。但是,我还没有找到一个引用,该引用实际上提供了为什么要使用此链接的任何真实理由。 Ferrari&Cribari-Neto(2004)的原始论文没有提供依据。他们仅注意到logit函数“特别有用”,这是因为对指数参数进行了比值比解释。其他来源则暗示了从区间(0,1)到实线的映射的愿望。但是,考虑到我们已经假设了beta分布,我们是否一定需要链接函数来进行这种映射?链接功能除了假设开始使用beta分布所施加的约束之外,还能提供什么好处?我已经进行了几次快速模拟,即使使用概率分布很大程度上集中在0或1附近的beta分布进行模拟,也没有看到具有(identity)链接的(0,1)区间之外的预测。还不够全面,无法捕捉到某些病理。 在我看来,基于个人在实践中如何根据Beta回归模型(即,比值比)解释参数估计值,即他们隐含地推断出“成功”的几率;也就是说,他们正在使用Beta回归代替二项式模型。考虑到beta和二项式分布之间的关系,这也许在某些情况下是适当的,但是在我看来,这应该是比一般情况更特殊的情况。在这个问题中,提供了一个答案来解释相对于连续比例而不是结果的优势比,但是在我看来,尝试以这种方式解释事物比使用日志等不必要的麻烦或身份链接,并解释百分比变化或单位偏移。 那么,为什么我们将logit链接用于beta回归模型?仅仅是为了方便起见,将其与二项式模型相关联?

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

1
Python中的顺序逻辑回归
我想在Python中运行顺序逻辑回归-对于具有三个级别并具有一些解释性因素的响应变量。该statsmodels软件包支持二进制logit和多项式logit(MNLogit)模型,但不支持有序logit。由于基础数学没有太大不同,我想知道是否可以使用这些方法轻松实现?(或者,其他可以使用的Python软件包也受到赞赏。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.