统计和大数据 separation

8

如果您的变量将目标变量中的零和一完美地分开，R将产生以下“完美或准完美分离”警告消息： Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我们仍然可以得到模型，但是系数估计被夸大了。您在实践中如何处理？

163 r regression logistic separation

1

R中的逻辑回归导致完美的分离（Hauck-Donner现象）。怎么办？

我正在尝试使用50个连续的解释变量来预测二进制结果（大多数变量的范围是到）。我的数据集几乎有24,000行。当我在R中运行时，我得到：∞−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 我已阅读过其他建议，可能会发生完美分离，但我确信数据中并非如此（尽管存在准完全分离；如何测试情况是否如此？）。如果删除一些变量，则“不收敛”错误可能会消失。但这并不总是会发生。我尝试在bayesglm函数中使用相同的变量，并得到相同的错误。您将采取什么步骤来弄清楚这里到底发生了什么？您如何找出导致问题的变量？

56 r regression logistic separation

2

Logistic回归模型不收敛

我有一些关于航空公司航班的数据（在名为的数据框中flights），我想看看飞行时间是否对到达时间明显延迟（意味着10分钟或更长时间）有任何影响。我以为我会使用逻辑回归，将飞行时间作为预测指标，并将每次飞行是否都显着延迟（一堆伯努利）作为响应。我用下面的代码... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...但是得到以下输出。 > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …

39 r logistic separation

4

当班级分开时，为什么逻辑回归变得不稳定？

当班级分开时，为什么逻辑回归变得不稳定？分隔良好的类是什么意思？如果有人可以举例说明，我将不胜感激。

34 r regression logistic separation

1

维中的

给定数据点，每个数据点具有特征，标记为，其他标记为。每个特征随机取的值（均匀分布）。存在可以分裂两个类别的超平面的概率是多少？d Ñ / 2 0 Ñ / 2 1 [ 0 ，1 ]nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] 让我们首先考虑最简单的情况，即。d=1d=1d = 1

24 probability classification mathematical-statistics separation

1

Firth Logistic回归模型选择

在我正在使用的小型数据集（）中，几个变量为我提供了理想的预测/分离效果。因此，我使用Firth Logistic回归来处理该问题。ñ 〜100n∼100n\sim100 如果我通过AIC或BIC选择最佳模型，那么在计算这些信息标准时是否应该在可能性中包括Firth惩罚项？

21 logistic model-selection aic separation

1

是否有逻辑上的解释说明为什么逻辑回归不适用于完美分离的情况？以及为什么添加正则化将解决此问题？

关于逻辑回归中的完美分离，我们有很多很好的讨论。例如，R中的逻辑回归导致完美的分离（Hauck-Donner现象）。怎么办？和Logistic回归模型不收敛。我个人仍然觉得这为什么会是一个问题以及为什么添加正则化可以解决这个问题并不直观。我制作了一些动画，并认为这会有所帮助。因此，请亲自发布他的问题并回答，以便与社区分享。

20 logistic generalized-linear-model optimization intuition separation

3

支持向量机和超平面的直觉

在我的项目中，我想创建一个逻辑回归模型来预测二进制分类（1或0）。我有15个变量，其中2个是分类变量，其余的则是连续变量和离散变量的混合。为了适应逻辑回归模型，建议我使用SVM，感知器或线性编程检查线性可分离性。这与此处提出的有关线性可分离性测试的建议有关。作为机器学习的新手，我了解上述算法的基本概念，但从概念上讲，我很难想象如何分离具有多个维度（例如15个）的数据。在线资料中的所有示例通常都显示两个数值变量（高度，重量）的二维图，这些二维变量在类别之间显示出明显的差距，并且易于理解，但在现实世界中，数据通常具有更高的维度。我一直被虹膜数据集吸引，试图通过这三个物种拟合一个超平面，以及如何在两个物种之间做到这一点特别困难，即使不是不可能，这两个类现在也让我无法幸免。当我们具有更高的维数时，如何假设当我们超过一定数量的特征时，我们使用内核映射到更高的维空间以实现这种可分离性，这是怎么实现的？同样为了测试线性可分离性，使用的度量标准是什么？是SVM模型的准确性，即基于混淆矩阵的准确性吗？任何有助于更好地理解该主题的帮助将不胜感激。下面也是我的数据集中两个变量的图的样本，它显示了这两个变量的重叠程度。

15 machine-learning logistic classification svm separation

1

GBM软件包与使用GBM的插入符

我一直在使用进行模型调整caret，但随后使用该gbm软件包重新运行模型。据我了解，caret程序包使用gbm的输出应相同。然而，data(iris)使用RMSE和R ^ 2作为评估指标，使用进行的快速测试显示模型中的差异约为5％。我想使用来找到最佳模型性能，caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。我的问题是： 1）为什么即使这两个软件包应该相同，我仍会看到这两个软件包之间的差异（我知道它们是随机的，但5％的差异还是很大的，尤其是当我没有使用iris建模时使用的很好的数据集时）。 2）同时使用这两个软件包有什么优点或缺点？ 3）不相关：使用iris数据集时，最佳interaction.depth值为5，但高于我所阅读的最大值，使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活？ library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

1

寻求对生育逻辑回归的理论理解

我试图理解Firth逻辑回归（在逻辑回归中处理完全/完全或准完全分离的方法），所以我可以用简化的方式向他人解释。有人对Firth估计对MLE所做的修改有模糊的解释吗？我已尽力阅读Firth（1993），并且我了解到对分数函数进行了更正。我对修正的起源和合理性以及分数函数在MLE中所起的作用不甚了解。抱歉，这是基本知识。我所阅读的文献似乎需要比我拥有的对MLE的更深刻的理解。

13 logistic maximum-likelihood separation

1

具有完全成功的分类变量的二项式glmm

我正在运行带有二项式响应变量和分类预测变量的glmm。随机效果由用于数据收集的嵌套设计给出。数据如下所示： m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: 1 2 3 4 …

11 r generalized-linear-model lme4-nlme separation

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Logistic回归中的巨大系数-这意味着什么，该怎么做？

我在逻辑回归中获得了巨大的系数，请参见的系数krajULKV： > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

9 regression logistic generalized-linear-model separation

Questions tagged «separation»