统计和大数据 logistic

1

我想计算与逻辑回归非常相似的回归系数（实际上是具有另一个系数的逻辑回归：当可以给出时）。我曾考虑过使用GMM来计算系数，但是我不确定应该使用什么时刻条件。A一种1 + e− （b0+ b1个X1个+ b2X2+ … ），A1+e−(b0+b1x1+b2x2+…), \frac{A}{1 + e^{- (b_0 + b_1 x_1 + b_2 x_2 + \ldots)}},一种AA 有人可以帮我吗？谢谢！

13 logistic generalized-moments

3

模型选择：Logistic回归

假设我们有协变量和二进制结果变量。这些协变量中的一些属于多个级别。其他是连续的。您将如何选择“最佳”模型？换句话说，您如何选择要在模型中包含哪些协变量？x 1，… ，x n yñnnX1个，… ，xñx1,…,xnx_1, \dots, x_nÿyy 您是否会使用简单的逻辑回归分别对每个协变量建模并选择具有显着关联的变量？ÿyy

13 logistic regression-strategies

2

评估逻辑回归模型

这个问题源于我对如何确定逻辑模型是否足够好的实际困惑。我有一些模型在成对变量两年后使用成对的个体项目状态。结果成功（1）或不成功（0）。我有在形成双时测量的自变量。我的目的是测试我假设会影响配对成功的变量是否对成功产生影响，并控制其他潜在影响。在模型中，关注变量很重要。使用中的glm()函数估算模型R。为了评估模型的质量，我做了几件事：默认情况下glm()为您提供residual deviance，AIC和BIC。此外，我已经计算了模型的错误率并绘制了合并残差。完整模型的残差，AIC和BIC小于我估计的其他模型（嵌套在完整模型中），这使我认为该模型比其他模型“更好”。该模型的错误率相当低，恕我直言（如Gelman and Hill，2007，pp.99）： error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)约为20％。到目前为止，一切都很好。但是，当我绘制合并的残差（再次遵循Gelman和Hill的建议）时，大部分合并箱位于95％CI之外：该图使我认为该模型存在某些错误。那应该导致我放弃模型吗？我是否应该承认该模型是不完美的，但可以保留并解释感兴趣变量的影响？我开玩笑地依次排除了变量，并且进行了一些变换，但并没有真正改善合并残差图。编辑：目前，该模型具有十几个预测变量和5种交互作用。这些对是相对“彼此”独立的，因为它们都是在短时间内形成的（但严格来说不是同时发生的），并且有很多项目（13k）和很多个人（19k）），因此相当多的项目只能由一个人（大约2万对）加入。

13 r logistic goodness-of-fit residuals

2

给定顺序逻辑回归模型，您如何预测响应类别？

我想预测一个健康问题。我按顺序排列了3个结果类别：“正常”，“轻度”和“严重”。我希望从两个预测变量（测试结果（连续，区间协变量）和有此问题的家族史（是或否）中进行预测。在我的样本中，概率为55％（正常），35％（轻度）和10％（严重）。从这个意义上讲，我总是可以预测“正常”，并且在55％的时间是正确的，尽管这不会给我有关单个患者的任何信息。我适合以下模型：（y的切点 ≥ 1 ）ˆ（y的切点 ≥ 2 ）ˆβ^牛逼Ë 小号ŧβ^F一米我升ý ħ 我š 吨ö ř ÿ = − 2.18= - 4.27= 0.60= 1.05the cut point for (y≥1)^=−2.18the cut point for (y≥2)^=−4.27β^test=0.60β^family history=1.05\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ …

13 logistic ordered-logit

4

报告逻辑回归的结果

我有以下逻辑回归输出： Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.5716 0.1734 3.297 0.000978 *** R1 -0.4662 0.2183 -2.136 0.032697 * R2 -0.5270 0.2590 -2.035 0.041898 * 是否可以通过以下方式进行报告： Beta系数，赔率，Zvalue，P值。如果是，我如何获得赔率？

13 logistic

3

方差较大的预测变量是否“更好”？

我有一个“基本统计”概念问题。作为一名学生，我想知道我是否在想这完全错误，为什么，如果这样：假设我正在假设要查看“愤怒管理问题”之间的关系，并在逻辑回归中说离婚（是/否），并且我可以选择使用两个不同的愤怒管理评分-满分均为100。得分1来自问卷评分工具1和我的其他选择；得分2来自另一份问卷。假设地，我们有理由相信从先前的工作中，愤怒的管理问题会导致离婚。如果在我的500个人的样本中，得分1的方差比得分2的方差高得多，是否有任何理由相信得分1将是基于其方差来预测离婚的更好得分？在我看来，这本能地似乎是正确的，但是是这样吗？

13 regression logistic

5

逐步逻辑回归和抽样

我正在对SPSS中的一组数据进行逐步逻辑回归。在此过程中，我将模型拟合到一个随机子集，该子集约为。样本总数的60％，约330例。我发现有趣的是，每次重新采样数据时，最终模型中都会弹出不同的变量。最终模型中总是存在一些预测变量，但其他预测变量会根据样本而突然出现。我的问题是这个。处理此问题的最佳方法是什么？我希望看到预测变量的收敛，但事实并非如此。从操作的角度来看，某些模型更具直觉意义（并且更容易向决策者解释），而其他模型则更适合数据。简而言之，既然变数乱七八糟，那么您将如何建议我呢？提前谢谢了。

13 logistic spss stepwise-regression

2

了解AIC和Schwarz标准

我正在运行一个物流模型。实际的模型数据集具有100多个变量，但我选择的测试数据集中包含25个变量。在此之前，我还制作了一个具有8-9个变量的数据集。有人告诉我AIC和SC值可以用来比较模型。我观察到，即使变量的p值较低（例如0053），该模型的SC值也较高。据我的直觉，具有变量的显着性水平的模型应该导致较低的SC和AIC值。但这并没有发生。有人可以澄清一下吗？简而言之，我想问以下问题：变量的数量与SC AIC有关系吗？我应该专注于p值还是较低的SC AIC值？降低SC AIC值的典型方法是什么？

13 model-selection logistic aic

1

R中二项式glm中响应的输入格式

在中R，有三种方法可以使用glm函数来格式化输入数据以进行逻辑回归：对于每个观察，数据可以采用“二进制”格式（例如，对于每个观察，y = 0或1）；数据可以采用“ Wilkinson-Rogers”格式（例如y = cbind(success, failure)），每一行代表一种治疗；要么数据可以是每个观测值的加权格式（例如，y = 0.3，权重= 10）。这三种方法均产生相同的系数估计值，但自由度以及由此产生的偏差值和AIC分数不同。后两种方法具有较少的观测值（因此也具有自由度），因为它们将每种处理用于观测值的数量，而第一种方法将每种观测值用作观测值的数量。我的问题：使用一种输入格式比使用另一种输入格式有数字或统计优势吗？我看到的唯一好处是不必重新格式化数据R即可与模型一起使用。我查看了glm文档，在网络上搜索了该站点，发现了一个与切向相关的帖子，但没有有关该主题的指导。这是一个模拟示例，演示了此行为： # Write function to help simulate data drc4 <- function(x, b =1.0, c = 0, d = 1, e = 0){ (d - c)/ (1 + exp(-b * (log(x) - log(e)))) } # …

13 r logistic generalized-linear-model

4

如果神经网络中的每个神经元基本上都是逻辑回归函数，那么为什么多层更好？

我将浏览Cousera的DeepAI课程（第3周视频1“神经网络概述”），Andrew Ng解释了神经网络中的每一层如何只是另一种逻辑回归，但他没有解释如何使事情变得更加准确。那么在2层网络中，如何多次计算logistic使其更准确？

13 logistic neural-networks

1

GBM软件包与使用GBM的插入符

我一直在使用进行模型调整caret，但随后使用该gbm软件包重新运行模型。据我了解，caret程序包使用gbm的输出应相同。然而，data(iris)使用RMSE和R ^ 2作为评估指标，使用进行的快速测试显示模型中的差异约为5％。我想使用来找到最佳模型性能，caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。我的问题是： 1）为什么即使这两个软件包应该相同，我仍会看到这两个软件包之间的差异（我知道它们是随机的，但5％的差异还是很大的，尤其是当我没有使用iris建模时使用的很好的数据集时）。 2）同时使用这两个软件包有什么优点或缺点？ 3）不相关：使用iris数据集时，最佳interaction.depth值为5，但高于我所阅读的最大值，使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活？ library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

为什么对于逻辑回归，P> 0.5临界值不是“最佳”的？

前言：我不在乎是否使用截止值的优点，也不在乎应该如何选择截止值。我的问题纯属数学，是出于好奇。 Logistic回归模型对A类与B类的后验条件概率进行建模，并且它拟合后验条件概率相等的超平面。因此，从理论上讲，我知道0.5的分类点将最大程度地减少总误差，而与集合平衡无关，因为它对后验概率建模（假设您始终遇到相同的分类比率）。在我的实际示例中，使用P> 0.5作为分类截止值时，我获得的准确性非常差（约51％的准确性）。但是，当我查看AUC时，它高于0.99。因此，我查看了一些不同的临界值，发现P> 0.6的准确度为98％（较小类别的准确度为90％，较大类别的准确度为99％）-仅2％的案例被错误分类。这些类严重不平衡（1：9），这是一个高维问题。但是，我将类平均分配给每个交叉验证集，这样模型拟合和预测之间的类平衡之间就不会有差异。我还尝试使用来自模型拟合和预测的相同数据，并且发生了相同的问题。我对0.5不能使误差最小化的原因感兴趣，我认为如果通过最小化交叉熵损失来拟合模型，这将是设计使然。是否有人对为什么会发生有任何反馈？是由于增加了处罚，如果可以的话，有人可以解释发生了什么吗？

13 logistic predictive-models unbalanced-classes

1

寻求对生育逻辑回归的理论理解

我试图理解Firth逻辑回归（在逻辑回归中处理完全/完全或准完全分离的方法），所以我可以用简化的方式向他人解释。有人对Firth估计对MLE所做的修改有模糊的解释吗？我已尽力阅读Firth（1993），并且我了解到对分数函数进行了更正。我对修正的起源和合理性以及分数函数在MLE中所起的作用不甚了解。抱歉，这是基本知识。我所阅读的文献似乎需要比我拥有的对MLE的更深刻的理解。

13 logistic maximum-likelihood separation

2

为什么在伯努利参数上使用beta分布进行分层逻辑回归？

我目前正在阅读Kruschke出色的“做贝叶斯数据分析”书。但是，有关分层逻辑回归的章节（第20章）有些令人困惑。图20.2描述了分层逻辑回归，其中伯努利参数被定义为通过S型函数转换的系数的线性函数。我在其他在线资源中也看到了大多数示例，这似乎是构成分层逻辑回归的方式。例如-http: //polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug 但是，当预测变量是名义变量时，他在层次结构中添加了一层-Bernoulli参数现在从beta分布中绘制（图20.5），其参数由mu和kappa确定，其中mu是系数线性函数的S形变换。，而kappa使用伽玛优先级。这似乎是合理的，类似于第9章中的掷硬币示例，但是我不认为名义上的预测变量与添加beta分布有什么关系。在度量标准预测变量的情况下，为什么不这样做？为什么为名义预测变量增加了beta分布？编辑：澄清我所指的模型。首先，具有指标预测变量的逻辑回归模型（之前没有beta）。这类似于分层逻辑回归的其他示例，例如上面的错误示例： ÿ一世〜伯努利（μ一世）μ一世= 信号（β0+ ∑ĴβĴXĴ 我）β0〜ñ（M0，Ť0）βĴ〜ñ（Mβ，Ťβ）yi∼Bernoulli⁡(μi)μi=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(Mβ,Tβ) y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\ 然后是带有名义预测变量的示例。在这里，我不太了解层次结构的“较低”级别的作用（将逻辑结果纳入二项式分析的beta中），以及为什么它应与度量示例有所不同。 ž一世〜斌（θ一世，N）θ一世〜Beta版（一个Ĵ，bĴ）一个Ĵ= μĴκbĴ= （1 - μĴ）κκ 〜Γ （小号κ，Rκ）μĴ= 信号（β0+ ∑ĴβĴXĴ 我）β0〜ñ（M0，Ť0）βĴ〜ñ（0 ，τβ）τβ= 1 / σ2βσ2β〜折t（TŤ，d ˚F）zi∼Bin⁡(θi,N)θi∼Beta⁡(aj,bj)aj=μjκbj=(1−μj)κκ∼Γ(Sκ,Rκ)μj=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(0,τβ)τβ=1/σβ2σβ2∼folded …

13 regression bayesian logistic multilevel-analysis

1

解释R中的逻辑回归输出

我正在使用进行R中的多元逻辑回归glm。预测变量是连续的和分类的。该模型摘要的摘录显示以下内容： Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.451e+00 2.439e+00 1.005 0.3150 Age 5.747e-02 3.466e-02 1.658 0.0973 . BMI -7.750e-02 7.090e-02 -1.093 0.2743 ... --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 置信区间： 2.5 % 97.5 % (Intercept) 0.10969506 1.863217e+03 Age 0.99565783 …

13 r logistic interpretation p-value

Questions tagged «logistic»