Questions tagged «separation»

当可以通过其他变量的线性组合完全区分某些类别的分类结果时,就会发生分离。

8
Logistic回归中如何处理完美分离?
如果您的变量将目标变量中的零和一完美地分开,R将产生以下“完美或准完美分离”警告消息: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我们仍然可以得到模型,但是系数估计被夸大了。 您在实践中如何处理?

1
R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?
我正在尝试使用50个连续的解释变量来预测二进制结果(大多数变量的范围是到)。我的数据集几乎有24,000行。当我在R中运行时,我得到:∞−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 我已阅读过其他建议,可能会发生完美分离,但我确信数据中并非如此(尽管存在准完全分离;如何测试情况是否如此?) 。如果删除一些变量,则“不收敛”错误可能会消失。但这并不总是会发生。 我尝试在bayesglm函数中使用相同的变量,并得到相同的错误。 您将采取什么步骤来弄清楚这里到底发生了什么?您如何找出导致问题的变量?

2
Logistic回归模型不收敛
我有一些关于航空公司航班的数据(在名为的数据框中flights),我想看看飞行时间是否对到达时间明显延迟(意味着10分钟或更长时间)有任何影响。我以为我会使用逻辑回归,将飞行时间作为预测指标,并将每次飞行是否都显着延迟(一堆伯努利)作为响应。我用下面的代码... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...但是得到以下输出。 > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …
39 r  logistic  separation 


1
维中的
给定数据点,每个数据点具有特征,标记为,其他标记为。每个特征随机取的值(均匀分布)。存在可以分裂两个类别的超平面的概率是多少?d Ñ / 2 0 Ñ / 2 1 [ 0 ,1 ]nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] 让我们首先考虑最简单的情况,即。d=1d=1d = 1

1
Firth Logistic回归模型选择
在我正在使用的小型数据集()中,几个变量为我提供了理想的预测/分离效果。因此,我使用Firth Logistic回归来处理该问题。ñ 〜100n∼100n\sim100 如果我通过AIC或BIC选择最佳模型,那么在计算这些信息标准时是否应该在可能性中包括Firth惩罚项?

1
是否有逻辑上的解释说明为什么逻辑回归不适用于完美分离的情况?以及为什么添加正则化将解决此问题?
关于逻辑回归中的完美分离,我们有很多很好的讨论。例如,R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?和Logistic回归模型不收敛。 我个人仍然觉得这为什么会是一个问题以及为什么添加正则化可以解决这个问题并不直观。我制作了一些动画,并认为这会有所帮助。因此,请亲自发布他的问题并回答,以便与社区分享。

3
支持向量机和超平面的直觉
在我的项目中,我想创建一个逻辑回归模型来预测二进制分类(1或0)。 我有15个变量,其中2个是分类变量,其余的则是连续变量和离散变量的混合。 为了适应逻辑回归模型,建议我使用SVM,感知器或线性编程检查线性可分离性。这与此处提出的有关线性可分离性测试的建议有关。 作为机器学习的新手,我了解上述算法的基本概念,但从概念上讲,我很难想象如何分离具有多个维度(例如15个)的数据。 在线资料中的所有示例通常都显示两个数值变量(高度,重量)的二维图,这些二维变量在类别之间显示出明显的差距,并且易于理解,但在现实世界中,数据通常具有更高的维度。我一直被虹膜数据集吸引,试图通过这三个物种拟合一个超平面,以及如何在两个物种之间做到这一点特别困难,即使不是不可能,这两个类现在也让我无法幸免。 当我们具有更高的维数时,如何假设当我们超过一定数量的特征时,我们使用内核映射到更高的维空间以实现这种可分离性,这是怎么实现的? 同样为了测试线性可分离性,使用的度量标准是什么?是SVM模型的准确性,即基于混淆矩阵的准确性吗? 任何有助于更好地理解该主题的帮助将不胜感激。下面也是我的数据集中两个变量的图的样本,它显示了这两个变量的重叠程度。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

1
寻求对生育逻辑回归的理论理解
我试图理解Firth逻辑回归(在逻辑回归中处理完全/完全或准完全分离的方法),所以我可以用简化的方式向他人解释。有人对Firth估计对MLE所做的修改有模糊的解释吗? 我已尽力阅读Firth(1993),并且我了解到对分数函数进行了更正。我对修正的起源和合理性以及分数函数在MLE中所起的作用不甚了解。 抱歉,这是基本知识。我所阅读的文献似乎需要比我拥有的对MLE的更深刻的理解。

1
具有完全成功的分类变量的二项式glmm
我正在运行带有二项式响应变量和分类预测变量的glmm。随机效果由用于数据收集的嵌套设计给出。数据如下所示: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: 1 2 3 4 …

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
Logistic回归中的巨大系数-这意味着什么,该怎么做?
我在逻辑回归中获得了巨大的系数,请参见的系数krajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.