统计和大数据 logistic

2

当我在两个单独的（单变量）逻辑回归模型中分析变量时，得到以下信息： Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001 Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029 但是，当我将它们输入到单个多元逻辑回归模型中时，我得到： Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171 Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, …

11 logistic statistical-significance multiple-regression

4

比较各个模型之间的逻辑回归系数？

我已经开发了一个logit模型，该模型将应用于六组不同的横截面数据。我要揭示的是，给定自变量（IV）对因变量（DV）的实质性影响是否发生变化，从而控制了在不同时间和跨时间的其他解释。我的问题是：如何评估IV和DV之间关联的大小增加/减少？我可以简单地查看模型中系数的不同大小（大小），还是需要执行其他过程？如果我需要做其他事情，那是什么，它可以完成/如何在SPSS中完成？而且，在单个模型中如果所有变量都编码为0-1，是否可以基于非标准化分数比较自变量的相对大小？还是需要将它们转换为标准化分数？标准化分数有问题吗？

11 logistic spss

6

在R中运行mlogit函数后进行预测

这是我想做的，但是似乎没有predict办法进行mlogit。有任何想法吗？ library(mlogit) data("Fishing", package = "mlogit") Fish <- mlogit.data(Fishing, varying = c(2:9), shape = "wide", choice = "mode") Fish_fit<-Fish[-1,] Fish_test<-Fish[1,] m <- mlogit(mode ~price+ catch | income, data = Fish_fit) predict(m,newdata=Fish_test)

11 r logistic logit multinomial

4

单变量逻辑回归的样本量计算

如何计算一项研究所需的样本量，在该研究中，一组受试者将在手术时测量一个连续变量，然后在两年后将其分类为功能预后或预后不良。我们想看看这种测量是否可以预测出不良的结果。在某个时候，我们可能想在连续变量中得出一个切入点，在该切入点之上，我们将尝试进行干预以减少结果受损的可能性。有任何想法吗？任何R实现。

11 logistic sample-size

4

多项卡方检验

我在2 x 2 x 6表格中交叉分类了数据。让我们叫的尺寸response，A和B。我用模型对数据进行逻辑回归response ~ A * B。对该模型偏差的分析表明，术语及其相互作用都是重要的。但是，从数据的比例来看，似乎只有2个左右的水平B对这些重要影响负责。我想测试一下是哪个级别的罪魁祸首。现在，我的方法是在的2 x 2表上执行6个卡方检验response ~ A，然后针对多个比较对这些检验的p值进行调整（使用Holm调整）。我的问题是，对于这个问题是否有更好的方法。是否有更原则的建模方法或多重卡方检验比较方法？

11 categorical-data logistic multiple-comparisons chi-squared

1

为什么将SVM解释为分类概率是错误的？

我对SVM的理解是，它与逻辑回归（LR）非常相似，即将特征的加权总和传递给S形函数以获取属于一类的概率，而不是交叉熵（逻辑）损失功能，使用铰链损失进行训练。使用铰链损失的好处是可以执行各种数值技巧来使内核化更加有效。但是，缺点是所得模型的信息少于相应的LR模型可能具有的信息。因此，例如，如果没有内核化（使用线性内核），SVM决策边界仍将位于LR输出0.5的概率所在的相同位置，但无法判断属于一类的概率从SVM 衰减的速度有多快。决策边界。我的两个问题是：我上面的解释正确吗？使用铰链损失如何使将SVM结果解释为概率无效？

11 machine-learning logistic svm

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

如何使用L1损失函数在R中训练（逻辑？）回归？

我可以在R使用中训练逻辑回归 glm(y ~ x, family=binomial(logit))) 但是，IIUC可以优化对数可能性。有没有办法使用线性（）损失函数（在这种情况下与总变化距离相同）来训练模型？大号1个大号1个L_1 即，给定一个数值向量和一个位（逻辑）向量，我想构造一个单调（实际上是增加的）函数，使得被最小化。XXxÿÿyFFf∑ | F（x ）− y|∑|F（X）-ÿ|\sum |f(x)-y| 也可以看看如何使用L1损失函数训练R中的逻辑回归？

11 logistic

2

Logistic回归：解释连续变量

我有几个问题需要解释逻辑回归中连续变量的比值比。我觉得这些是关于逻辑回归的基本问题（可能还有关于回归的一般问题），尽管我为自己不知道答案感到as愧，但我还是要以我的骄傲为由并问他们，以便我在未来！这是我的情况...我正在查看一个受审判的青年样本，作为试用期的一部分，他们参加了工作/生活技能培训计划。我想看看他们从计划中被释放的年龄在计划被释放六个月后的预期就业率。（此外，请记住，模型中还有其他预测变量，但由于它们在统计上不显着，因此我将它们排除在外，我想尽可能地使之清晰。）预测变量：从培训计划中释放的年龄（平均年龄= 17.4，SD = 1.2，范围14.3-20.5）结果：是否就业（就业= 1，未就业= 0）结果：赔率3.01（p <.005）（我已经排除了拟合优度等，因为我只寻求解释比值比的答案；我对模型拟合，CI的评估感到满意等）简而言之：随着年龄增长一年，出院后六个月被雇用的几率增加了三个单位。问题： 1）当我说“随着年龄的增长……”，年龄的起点是什么？年龄从零开始吗？例如，“随着年龄从0开始增加（即，如果要将此模型放在图表上，则是最低年龄）...” 年龄是否从样本年龄范围内的最低年龄开始？例如，“随着年龄从14.3开始增加...” 要么年龄是否从样本的平均年龄开始？例如，“随着年龄从17.4 ...开始增加”， 2）居中会帮助我解释这个结果，还是仅在解释y-int时有效？如果有帮助，我正在考虑进行平均居中或从样本中的所有其他年龄中减去该范围内的最低年龄。有什么建议么？ 3）最后，是否恰当地说，与14岁的年轻人相比，17岁的年轻人受雇的可能性高9倍？我之所以问，是因为我知道逻辑回归假设为S型关系，并且我对这3个单位的几率增加是否在沿回归线的任何点都保持一致感到好奇。非常感谢！亚伦

11 regression logistic

1

如何选择罕见事件的Logistic回归的截止概率

我有100,000个观察值（9个虚拟指标变量），具有1000个正值。Logistic回归在这种情况下应该可以正常工作，但临界概率使我感到困惑。在普通文献中，我们选择50％截止值来预测1和0。我无法执行此操作，因为我的模型给出的最大值约为1％。因此，阈值可以在0.007或附近。我确实了解ROC曲线以及曲线下的面积如何帮助我在同一数据集的两个LR模型之间进行选择。但是，ROC并不能帮助我选择最佳截断概率，该概率可以用来对样本外数据进行模型测试。我是否应该简单地使用最小化阈值的截止值misclassification rate？（http://www2.sas.com/proceedings/sugi31/210-31.pdf）添加->对于如此低的事件发生率，我的错误分类率受到大量误报的影响。虽然总体宇宙的大小也很大，但总体上看来该比率很高，但是我的模型不应有那么多的误报（因为它是投资回报模型）。5/10系数很重要。

11 regression logistic classification generalized-linear-model roc

1

似然比检验和Wald检验为R中的glm提供了不同的结论

我正在从通用模型，线性模型和混合模型复制示例。我的MWE如下： Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) 输出量 Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family = binomial("logit"), …

11 r logistic generalized-linear-model likelihood-ratio z-test

2

转换连续变量以进行逻辑回归

我有大量调查数据，一个二进制结果变量和许多解释性变量，包括二进制和连续变量。我正在建立模型集（使用GLM和混合GLM进行实验），并使用信息理论方法来选择顶级模型。我仔细检查了说明（连续的和分类的）之间的相关性，而我只使用在同一模型中Pearson或Phicorr系数小于0.3的那些。我想给我所有的连续变量一个竞争顶级模型的机会。以我的经验，基于偏斜转换那些需要它的人可以改善他们参与的模型（降低AIC）。我的第一个问题是：由于变换提高了logit的线性度，所以此改进是否在进行？还是通过使数据更加对称，校正偏斜以某种方式改善了解释变量的平衡？我希望我能理解其背后的数学原因，但就目前而言，如果有人可以轻松地解释这一点，那就太好了。如果您有任何我可以使用的参考，我将不胜感激。许多互联网网站都说，由于正常性不是二进制逻辑回归的假设，因此请勿变换变量。但是我觉得，通过不对变量进行转换，与其他变量相比，我处于不利地位，这可能会影响顶级模型，并改变推理（好吧，通常不会，但是在某些数据集中会）。我的一些变量在对数转换时性能更好，一些在平方时（偏斜的不同方向），另一些未转换时。有人可以给我一个指导原则，在为逻辑回归转换解释变量时要注意些什么，如果不这样做，为什么不这样做呢？

11 regression logistic data-transformation skewness

5

聚类是拆分数据以进行逻辑回归的一种方法

我正在尝试通过逻辑回归模型基于某些功能来预测学生的成败。为了提高模型的性能，我已经考虑过根据明显的差异将学生分为不同的组，并为每个组构建单独的模型。但是我认为可能很难通过考试来确定这些群体，因此我想通过根据学生的特征将学生分类。这是建立此类模型的常见做法吗？您是否建议我将其分为明显的组（例如，第一学期学生与回国学生），然后对这些组进行聚类，或者从一开始就聚类？尝试澄清：我的意思是说我正在考虑使用聚类算法将逻辑回归的训练集分成几组。然后，我将为每个组分别进行逻辑回归。然后，当使用Logistic回归预测学生的学习成绩时，我将根据他们最适合的群体选择要使用的模型。也许我可以通过包含一个组标识符来做同样的事情，例如，如果学生要返回，则返回1，否则返回0。现在，您让我开始思考，对训练数据集进行聚类并使用其聚类标签作为逻辑回归中的功能是否有利，而不是为每个总体建立单独的逻辑回归模型。如果为回国学生和新生的学生添加组标识符很有用，扩展组列表是否也有用？群集似乎是执行此操作的自然方法。我希望这很清楚...

11 clustering data-mining logistic

2

为什么将指数logistic回归系数视为“奇数比”？

Logistic回归将事件的对数几率建模为一组预测变量。也就是说，log（p /（1-p））其中p是某种结果的概率。因此，对于某些变量（x）的原始逻辑回归系数的解释必须在对数优势比上。就是说，如果x的系数= 5，那么我们知道x值对应的1单位更改对应于对数赔率标度上的5单位更改，将发生结果。但是，我经常看到人们将指数 logistic回归系数解释为优势比。但是，显然exp（log（p /（1-p）））= p /（1-p），这是一个赔率。据我了解，优势比是一个事件发生的几率（例如，事件A的p /（1-p））与另一个事件发生的几率（例如，事件p /（1-p）） B）。我在这里想念什么？似乎这种对指数逻辑回归系数的常见解释是不正确的。

10 regression logistic logit

2

测试套索逻辑回归中的系数显着性

[ 这里提出了类似的问题，但没有答案] 我已经使用L1正则化拟合了逻辑回归模型（套索逻辑回归），我想测试拟合系数的显着性并获得其p值。我知道Wald的检验（例如）是在不进行正则化的情况下测试单个系数在完全回归中的显着性的一种选择，但是对于Lasso，我认为会出现更多的问题，这些问题不允许使用常规的Wald公式。例如，检验所需的方差估计不遵循通常的表达式。套索纸原件 http://statweb.stanford.edu/~tibs/lasso/lasso.pdf 建议使用基于引导程序的程序来估计系数方差，（再次，我认为）测试可能需要此方差（第2.5节，第272页的最后一段和273的开头）：一种方法是通过引导程序：要么可以固定要么可以针对每个引导程序样本对进行优化。固定类似于选择（特征的）最佳子集，然后对该子集使用最小二乘标准误差ttttttttt 我的理解是：反复将Lasso回归拟合到整个数据集，直到找到正则化参数的最佳值（这不是引导程序的一部分），然后仅使用由Lasso选择的特征将OLS回归拟合到子样本数据并应用通常的公式来计算每个回归的方差。（然后，我该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计？）此外，将常用的显着性检验（例如Wald检验利用估计的beta和方差）与系数的Lasso估计和自举估计方差一起使用是否正确？我可以肯定它不是，但是任何帮助（使用其他测试，使用更直接的方法，无论如何...）都非常受欢迎。根据这里的答案，我怀疑无法得出推论和p值。就我而言，p值是一个外部要求（尽管我选择使用L1正则化）。非常感谢编辑如果我仅使用上一次套索逻辑回归所选择的变量来拟合OLS逻辑回归怎么办？显然（请参阅此处），进行交叉验证后，无需再次运行模型（您只需从cv.glmnet的输出中获取系数），实际上，如果您在不惩罚的情况下拟合新的逻辑回归模型，那么您将无法使用套索但是，如果我这样做的唯一目的是能够在不使变量数量减少的情况下计算p值呢？这是一个很肮脏的方法吗？:-)

10 logistic statistical-significance regression-coefficients lasso

Questions tagged «logistic»