统计和大数据 logistic

1

我知道我已经看过这两种方式，所以两者之间有区别吗？哪个更常用？

9 logistic terminology logarithm loss-functions

1

我在一本机器学习书中读到，可以通过梯度下降来估算线性回归的参数（以及其他方法），而逻辑回归的参数通常是通过最大似然估计来估算的。是否可以向新手（我）解释为什么我们需要不同的线性/逻辑回归方法。aka为什么不使用MLE进行线性回归，为什么不使用梯度下降进行logistic回归？

9 regression logistic maximum-likelihood

1

估计多级Logistic回归模型

以下多级逻辑模型，其中一个解释变量在级别1（个人级别），一个解释变量在级别2（组级别）： π 0 Ĵ = γ 00 + γ 01 ż Ĵ + ü 0 Ĵ ... （2 ）logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0 Ĵ= γ00+ γ01žĴ+ 你0 Ĵ… （2 ）π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1 Ĵ= γ10+ γ11žĴ+ 你1 Ĵ… （3 ）π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) 其中，假定组级别残差ü0 Ĵu0ju_{0j}和ü1 Ĵu1ju_{1j}具有期望值为零的多元正态分布。残留误差 u_ {0j}的方差ü0 Ĵu0ju_{0j}指定为σ20σ02\sigma^2_0，残留误差u_ {1j}的方差 ü1 Ĵu1ju_{1j}指定为σ21个σ12\sigma^2_1。我想估算模型的参数，并且喜欢使用 Rcommand glmmPQL。 …

9 r logistic generalized-linear-model simulation multilevel-analysis

2

引用统计检验两个比值比之间的差异？

@gung 在这里发表评论，写道：我相信它们可以重叠一点（也许〜25％），并且在5％的水平上仍然很重要。请记住，您看到的95％CI是针对单个OR，但是对2个OR的测试是关于它们之间的差异。但是，如果它们根本不重叠，那么它们肯定会明显不同；如果95％CI与其他OR点估计值重叠，则它们肯定不会重叠。有没有人引用上述声明？审稿人要我计算两个比值比是否显着不同。

9 logistic confidence-interval odds-ratio references

1

在物流回归中使用“预测”一词有多公平？

我的理解是，即使回归也不能给出因果关系。它只能给出y变量和x变量以及可能的方向之间的关联。我对么？即使在大多数课程教科书和在线的各种课程页面上，我也经常发现类似于“ x预测y”的短语。您通常将回归变量称为预测变量，将y称为响应。将其用于线性回归有多公平？逻辑回归如何？（如果我确实有一个阈值t，可以与之比较概率？）

9 regression logistic predictive-models terminology causality

2

使用波尔函数检查比例赔率假设是否在序数逻辑回归中成立

我已使用MASS软件包中的“ polr”函数对具有15个连续解释变量的序数分类响应变量运行序数逻辑回归。按照UCLA指南中的建议，我已使用代码（如下所示）检查我的模型是否符合比例赔率假设。但是，我有点担心输出的含义，即不仅各个切点之间的系数都相似，而且也完全相同（请参见下图）。 FGV1b <- data.frame(FG1_val_cat=factor(FGV1b[,"FG1_val_cat"]), scale(FGV1[,c("X","Y","Slope","Ele","Aspect","Prox_to_for_FG", "Prox_to_for_mL", "Prox_to_nat_border", "Prox_to_village", "Prox_to_roads", "Prox_to_rivers", "Prox_to_waterFG", "Prox_to_watermL", "Prox_to_core", "Prox_to_NR", "PCA1", "PCA2", "PCA3")])) b <- polr(FG1_val_cat ~ X + Y + Slope + Ele + Aspect + Prox_to_for_FG + Prox_to_for_mL + Prox_to_nat_border + Prox_to_village + Prox_to_roads + Prox_to_rivers + Prox_to_waterFG + Prox_to_watermL + Prox_to_core …

9 r logistic assumptions ordered-logit polr

5

大数据的逻辑回归

我有大约5000个功能的数据集。对于这些数据，我首先使用卡方检验进行特征选择。之后，我得到了大约1500个变量，这些变量与响应变量之间显示出显着的关系。现在，我需要对此进行逻辑回归。我正在为R使用glmulti软件包（glmulti软件包为vlm提供了有效的子集选择），但一次只能使用30个功能，否则其性能会下降，因为数据集中的行数约为20000。是否有其他方法或技术可以解决上述问题？如果我采用上述方法，将需要太多时间来拟合模型。

9 r logistic generalized-linear-model modeling regression-strategies

3

逻辑回归：最大化正阳性-误阳性

我有一个逻辑回归模型（通过弹性网络正则化通过R中的glmnet拟合），并且我想最大化真实肯定和错误肯定之间的差异。为此，请注意以下步骤：拟合标准逻辑回归模型使用预测阈值为0.5，确定所有积极预测为肯定预测的观测值分配权重1，为所有其他权重分配权重0 拟合加权逻辑回归模型这种方法有什么缺点？解决此问题的正确方法是什么？希望最大程度地提高正负数之间的差异的原因是由于我的应用程序的设计。作为课堂项目的一部分，我正在在线市场上建立一个自主参与者-如果我的模型预测它可以购买某些东西并以后以更高的价格出售，它就会出价。我想坚持逻辑回归并根据固定成本和单价增量（我在每笔交易中获得或损失相同的金额）输出二进制结果（成功，失败）。误报会伤害我，因为这意味着我买了东西，无法以更高的价格出售。但是，错误的否定并不会伤害我（仅就机会成本而言），因为这仅意味着如果我不购买，但如果我有购买，我就可以赚钱。同样，我同意0.5的临界值是完全任意的，并且当我在预测阈值上优化了步骤1中的模型时，该模型在真/假阳性之间产生了最大差异，结果接近0.4。我认为这是由于数据的偏斜性质-负数与正数之比约为1：3。现在，我正在执行以下步骤：将数据拆分为训练/测试在训练中拟合模型，在测试集中进行预测并计算真假阳性之间的差异完全拟合模型，在测试集中进行预测并计算真假阳性之间的差异尽管训练集是全套的子集，但在步骤3中，正确/错误肯定之间的差异小于在步骤2中。由于我不在乎＃3中的模型是否具有更多的真实负数和更少的虚假负数，因此我可以做些什么而无需更改似然函数本身？

9 r regression logistic classification glmnet

4

对连续因变量使用逻辑回归

我最近对研究论文进行了修订，以下是审稿人对我论文的评论：从一个模型获得的结果并不令人信服，特别是线性回归通常在处理离群值方面存在缺陷。我建议作者还尝试进行逻辑回归，并将相应结果与当前结果进行比较。如果获得类似的观察结果，结果将更加可靠。审稿人的评论正确吗？Logistic回归优于多元线性回归吗？问题是我的因变量不是分类变量，而是比例变量。我现在能做什么？您建议使用什么其他回归方法评估模型？得分是下表中的因变量。新近度，频率，任期和最后得分是独立变量。我从一个站点中提取了这些变量，并假设这些自变量对得分有重大影响。因此，我代表以下模型：顺便说一下，此线性模型的R平方值是0.316！审阅者也对此值发表了评论：由于没有关于学习系数质量的指标，因此结果令人信服。小R ^ 2不能表示良好的性能，因为模型可能过拟合。 R平方的0.316非常低吗？在以前的论文中，我看到了很多类似的价值观。

9 regression logistic multiple-regression

2

在逻辑回归中为高度偏斜的数据集添加权重

我使用的是Logistic回归的标准版本，以使我的输入变量适合二进制输出变量。但是，在我的问题中，负输出（0s）远大于正输出（1s）。比例为20：1。因此，当我训练分类器时，似乎即使强烈暗示正输出可能性的特征对于其对应参数仍然具有非常低（非常负）的值。在我看来，发生这种情况是因为有太多否定示例将参数拉向它们的方向。所以我想知道我是否可以为正例添加权重（例如，使用20而不是1）。这可能完全有益吗？如果是这样，我应该如何添加权重（在以下等式中）。成本函数如下所示： J=(−1/m)⋅∑i=1my⋅log(h(x⋅θ))+(1−y)(1−log(h(x⋅θ)))J=(−1/m)⋅∑i=1my⋅log⁡(h(x⋅θ))+(1−y)(1−log⁡(h(x⋅θ)))J = (-1 / m) \cdot\sum_{i=1}^{m} y\cdot\log(h(x\cdot\theta)) + (1-y)(1 - \log(h(x\cdot\theta))) 此成本函数的梯度（wrt）为：θθ\theta grad=((h(x⋅θ)−y)′⋅X)′grad=((h(x⋅θ)−y)′⋅X)′\mathrm{grad} = ((h(x\cdot\theta) - y)' \cdot X)' 这里， =测试用例数， =特征矩阵， =输出向量， = S型函数， =我们要学习的参数。mmmxxxyyyhhhθθ\theta 最后，我运行梯度下降以找到可能的最低该实现似乎正常运行。JJJ

9 regression logistic weighted-regression

2

Logistic回归中的赔率

我很难理解一种逻辑回归解释。Logistic回归是在温度与死亡或不死亡的鱼类之间。逻辑回归的斜率为1.76。然后，鱼死亡的几率增加了exp（1.76）= 5.8。换句话说，温度每变化1摄氏度，鱼死亡的几率就会增加5.8倍。由于2012年有50％的鱼类死亡，因此2012年温度升高1摄氏度将使鱼类死亡的发生率增至82％。如果2012年温度升高2摄氏度，鱼死亡的发生率将升至97％。摄氏3度升高-> 100％的鱼死亡。我们如何计算1、2和3？（82％，97％和100％）

9 logistic odds-ratio odds

1

Logistic回归模型变量的p值的含义

因此，我正在R中使用逻辑回归模型。尽管我还不熟悉统计学，但我现在似乎对回归模型有了一些了解，但仍然有些困扰我：查看链接的图片，您会看到我创建的示例模型的摘要R打印。该模型正在尝试预测是否将重新找到数据集中的电子邮件（二进制变量isRefound），并且数据集中包含与密切相关的两个变量isRefound，即- next24和next7days-均为二进制，并告知是否将在下一个单击邮件。从日志中的当前点开始的24小时/接下来的7天。高p值应表明，此变量对模型预测的影响是相当随机的，不是吗？基于这一点，我不明白为什么当这两个变量被排除在计算公式之外时，模型预测的精度为什么会下降到10％以下。如果这些变量的重要性不高，为什么将它们从模型中删除会产生如此大的影响？最好的问候和预先的感谢，Rickyfox 编辑：首先，我仅删除了next24，这会产生很小的影响，因为它的系数很小。正如预期的那样，变化不大-不会为此上传图片。移除next7day会对模型产生重大影响：AIC提升200k，精度降低至16％，召回率降低至73％

9 r regression logistic p-value interpretation

1

使用分类变量模拟逻辑回归数据

我正在尝试为逻辑回归创建一些测试数据，并且发现了这篇文章如何模拟逻辑回归的人工数据？这是一个很好的答案，但它仅创建连续变量。对于与链接相同的示例，与y关联的具有5个级别的分类变量x3（ABCDE）如何处理？

9 r logistic simulation

2

广义线性模型的假设

在“应用回归的R伴侣”的第232页上，Fox和Weisberg注意只有高斯族具有恒定的方差，在所有其他GLM中，处y的条件方差取决于XX\bf{x}μ （x ）μ（X）\mu(x) 先前，他们注意到泊松的条件方差是，而二项式的条件方差是。μμ\muμ （1 - μ ）ñμ（1个-μ）ñ\frac{\mu(1-\mu)}{N} 对于高斯人来说，这是一个熟悉且经常检查的假设（均方差）。同样，我经常看到讨论的Poisson条件方差是Poisson回归的假设，以及对违反Poisson的情况（例如负二项式，零膨胀等）的补救措施。但是，我从未将讨论的二项式的条件方差视为逻辑回归中的假设。有点谷歌搜索没有发现它。我在这里想念什么？在@whuber的评论之后进行编辑：根据建议，我正在浏览Hosmer＆Lemeshow。这很有趣，我认为这表明了为什么我（可能还有其他人）感到困惑。例如，单词“假设”不在书的索引中。另外，我们有这个（第175页）在逻辑回归中，我们必须主要依靠视觉评估，因为仅在某些有限的条件下才知道模型适合的假设下的诊断分布他们显示了很多图，但专注于各种残差的散点图与估计的概率。这些图（即使是一个好的模型，在OLS回归中也没有类似图的“破旧”模式特征，因此很难判断。此外，它们与分位数图没有任何相似之处。在R中，plot.lm提供了一套漂亮的默认绘图来评估模型；我不知道逻辑回归的等效项，尽管它可能在某些软件包中。这可能是因为每种类型的模型都需要不同的图。SAS确实在PROC LOGISTIC中提供了一些地块。当然，这似乎是一个潜在的混乱领域！

9 logistic generalized-linear-model

1

Logistic回归中的巨大系数-这意味着什么，该怎么做？

我在逻辑回归中获得了巨大的系数，请参见的系数krajULKV： > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

9 regression logistic generalized-linear-model separation

Questions tagged «logistic»