统计和大数据 logistic

1

我拥有关于美国葡萄酒销售的大量市场数据集，我想估计对某些优质葡萄酒的需求。这些市场份额基本上来自于以下形式的随机效用模型：其中包括观察到的产品特征，表示产品价格，是影响需求且与价格相关的未观察到的产品特征，是误差项，索引个人，索引产品和指数市场（在这种情况下为城市）。Uijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXξ ε 我Ĵ 吨pppξξ\xiϵϵ\epsiloniiijjjttt 由于无法使用质量术语，因此我无法使用通常的条件logit模型，并且我没有好的仪器。但是，Berry（1994）开发了一种在多项式logit框架中线性化市场方程组非线性系统的策略，但我无法弄清楚他如何进行反演步骤。ξξ\xi 在真正的参数值，他说，估计市场份额应该等于“真实的”市场份额：为然后他建议将市场份额从为可以解决并将其消除。如果有人可以阐明该反演步骤的工作原理，甚至可以在Stata中实现它，那就太好了。非常感谢。小号Ĵ吨=小号 Ĵ吨（δ，α，β）δ=小号 -1（小号，α，β）ξsˆjt(X,β,α,ξ)=Sjts^jt(X,β,α,ξ)=Sjt\widehat{s}_{jt} (X, \beta , \alpha , \xi) = S_{jt}Sjt=sˆjt(δ,α,β)Sjt=s^jt(δ,α,β)S_{jt} = \widehat{s}_{jt}(\delta , \alpha , \beta)δ=sˆ−1(S,α,β)δ=s^−1(S,α,β)\delta = \widehat{s}^{-1}(S, \alpha, \beta)ξξ\xi Berry，ST 1994，“估计产品差异的离散选择模型”，兰德经济学期刊，第25卷，第2期，第242-62页

12 logistic estimation multiple-regression categorical-data

1

信息从帽子矩阵中进行逻辑回归

对我来说很明显，并且在多个位置上都有很好的解释，帽子矩阵对角线上的值为线性回归提供了哪些信息。对我来说，逻辑回归模型的帽子矩阵不太清楚。它与您通过线性回归从帽子矩阵中获得的信息相同吗？这是我在CV的另一个主题（源1）上发现的hat矩阵的定义： H=VX(X′VX)−1X′VH=VX(X′VX)−1X′VH=VX ( X'V X)^-1 X' V 其中X为预测变量的向量，V为的对角矩阵(π(1−π))−−−−−−−−√(π(1−π))\sqrt{(π(1−π))}。换句话说，观察的帽子矩阵的特定值是否也只是表示协变量在协变量空间中的位置，而与该观察的结果值无关吗？这写在Agresti的《分类数据分析》一书中：观测值的杠杆越大，其对拟合的潜在影响就越大。与普通回归一样，杠杆率介于0到1之间，并且等于模型参数的数量。与普通回归不同，帽子值取决于拟合以及模型矩阵，具有极高预测值的点不需要具有高杠杆作用。因此，超出这个定义，似乎不能像在普通线性回归中那样使用它？来源1：如何计算R中逻辑回归的帽子矩阵？

12 regression logistic

1

混合效应模型中固定效应的推论

我已经关联了数据，并且正在使用逻辑回归混合效应模型来估计感兴趣的预测变量的个体水平（条件）效应。我知道对于标准边际模型，使用Wald检验推断模型参数对于似然比和得分检验是一致的。它们通常大致相同。因为Wald易于计算并且可以在R输出中使用，所以我用了99％的时间。但是，对于混合效果模型，我很感兴趣，因为固定效果的Wald检验（在R的模型输出中报告）和“人工”似然比检验之间存在巨大差异，这涉及实际拟合简化模型。凭直觉，我可以理解为什么这会有很大的不同，因为在简化的模型中，随机效应的方差被重新估计，并且会极大地影响可能性。有人可以解释对于固定效果，如何在R中计算Wald检验统计量？混合效应模型中估计模型参数的信息矩阵是什么？（和从中计算Wald测试统计信息的mx相同吗？）在我描述的案例中，两次测试的结果在解释上有什么区别？哪些通常是动机并在文献中用于推理？

12 logistic mixed-model inference

3

Mundlak固定效应程序是否适用于假人的逻辑回归？

我有一个包含8000个聚类和400万个观测值的数据集。不幸的是xtlogit，即使使用10％的子样本，我的统计软件Stata在使用其面板数据函数进行logistic回归时运行也相当缓慢。但是，使用非面板logit功能时，结果会更快出现。因此，我可能会受益于使用logit修正后的数据来解决固定效应。我相信该程序是“ Mundlak固定效应程序”的创造（Mundlak，Y。1978年。时间序列和横截面数据的合并。Econometrica，46（1），69-85）。我在Antonakis，J.，Bendahan，S.，Jacquart，P.，＆Lalive，R.（2010）的论文中找到了对此过程的直观解释。关于提出因果主张：审查和建议。《领导力季刊》 21（6）。1086-1120。我引用：解决遗漏固定效应问题并仍然包含2级变量的一种方法是将所有1级协变量的聚类均值包括在估计模型中（Mundlak，1978）。聚类平均值可以作为回归变量包括在内，也可以从1级协变量中减去（即聚类平均居中）。聚类均值在聚类内是不变的（并且在聚类之间有所不同），并且允许对一级参数进行一致的估计，就像已包含固定效应一样（参见Rabe-Hesketh和Skrondal，2008年）。因此，聚类平均居中似乎是解决我的计算问题的理想选择。但是，这些论文似乎是针对线性回归（OLS）的。这种聚类平均居中的方法是否也适用于“复制”固定效应二进制逻辑回归？一个更技术性的问题应该得出相同的答案：当数据集B是数据集A的均值中心版本时，数据集A是否xtlogit depvar indepvars, fe等于logit depvar indepvars数据集B？我在这种聚类均值居中发现的另一个困难是如何应对假人。由于虚拟变量为0或1，它们在随机效应和固定效应回归中是否相同？他们不应该“居中”吗？

12 logistic categorical-data stata fixed-effects-model

4

Logistic回归的预测概率可以解释为分类中的置信度吗

我们能否将从输出预测分类值和概率（例如，逻辑回归或朴素贝叶斯）的分类器获得的后验概率解释为分配给该预测分类值的某种置信度得分？

12 probability logistic naive-bayes

1

绘制具有多个预测变量的Logit模型的概率曲线

我有以下概率函数： Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} 哪里 z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. 我的模特看起来像 Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid})]\right)} 这通过如下所示的概率曲线可视化。我正在考虑在原始回归方程式中添加几个变量。假设我在模型中添加了性别（类别：F和M）和年龄（类别：<25和> 26），最后得到： Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid}) + 0.25\times(\text{gender}) + 0.15\times(\text{age})]\right)} 在RI中可以生成类似的概率曲线，当考虑所有三个预测变量时，它将告诉我Y = 1的概率。我迷路的地方是我想找到这些变化的每种可能排列的概率。因此，当出价= 1，性别= M，年龄> = 26时，Y = 1的概率是多少？同样，当出价= 2，性别= F，年龄> …

12 r probability data-visualization logistic

2

Logistic回归残差分析

这个问题有点笼统，任重而道远，但请耐心等待。在我的应用程序中，我有许多数据集，每个数据集包含约20,000个数据点，这些数据点具有约50个特征和一个相关的二进制变量。我正在尝试使用正则逻辑回归（R包glmnet）对数据集建模作为分析的一部分，我创建了如下的残差图。对于每个功能，我根据该功能的值对数据点进行排序，将数据点分为100个存储桶，然后计算每个存储桶内的平均输出值和平均预测值。我绘制这些差异。这是残差图示例：在上图中，特征的范围为[0,1]（浓浓度为1）。如您所见，当特征值较低时，模型似乎偏向于高估1输出的可能性。例如，在最左边的存储桶中，模型将概率高估了大约9％。有了这些信息，我想以一种简单的方式更改功能定义，以大致纠正这种偏差。更换等变更 x → x--√x→xx \rightarrow \sqrt{x} 要么 x → f一个（x ）= { aX 如果 x < a 其他x→fa(x)={a if x<a x elsex \rightarrow f_a(x) = \cases{a & if $x<a$ \cr x & else} 我怎样才能做到这一点？我正在寻找一种通用的方法，以便人类可以快速滚动浏览所有约50个图并进行更改，然后对所有数据集执行此操作，并经常重复进行此操作，以使模型随着数据随时间的变化而保持最新。作为一个普遍的问题，这是否是正确的方法？Google搜索“逻辑回归残差分析”不会返回许多具有良好实践建议的结果。他们似乎专心回答以下问题：“此模型是否合适？” 并提供Hosmer-Lemeshow等各种测试来回答。但是我不在乎我的模型是否好，我想知道如何使其更好！

12 logistic residuals

1

Logistic分位数回归–如何最好地传达结果

在上一篇文章中，我想知道如何处理EQ-5D分数。最近，我偶然发现了由Bottai和McKeown建议的逻辑分位数回归，该回归引入了一种处理有限结果的优雅方法。公式很简单：升Ò 克我吨（ÿ）= 升Ô 克（y- ÿ中号我Ñÿ中号一个X- ÿ）logit(y)=log(y−yminymax−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) 为避免log（0）和被0除，可以将范围扩展一个小值。这提供了尊重分数边界的环境。ϵϵ\epsilon 问题在于，任何都将处于对数刻度，除非转换回常规刻度才有意义，但这意味着将是非线性的。出于图形目的，这并不重要，但如果使用更多：s，则将非常不便。β βββ\betaββ\betaββ\beta 我的问题：您如何建议在不报告整个跨度的情况下报告logit？ββ\beta 实施实例为了测试实现，我基于此基本功能编写了一个仿真： Ò ù 吨Ç ø 米Ë = β0+ β1个* x t e s t3+ β2* 小号Ë Xoutcome=β0+β1∗xtest3+β2∗sexoutcome=\beta_0+\beta_1* xtest^3+\beta_2*sex 其中，和。由于分数是有上限的，因此我将大于4的任何结果值和小于-1的任何结果值设置为最大值。β 1 = 0.5 β 2 = 1β0= 0β0=0\beta_0 = 0β1个= 0.5β1=0.5\beta_1 = 0.5β2= 1β2=1\beta_2 = 1 模拟数据 set.seed(10) …

12 r logistic data-visualization logit quantile-regression

2

分析逻辑回归系数

这是逻辑回归系数的列表（第一个是截距） -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 我发现截距如此之低如此奇怪，并且我的系数实际上等于0。我不确定如何解释这一点。0是否表示特定变量对模型完全没有影响？但是，通过输入某列进行的拦截真的很重要吗？还是我的数据只是废话而模型无法正确地适应它。

12 regression logistic

4

序数逻辑回归的功效分析

我正在寻找一个程序（R或SAS或独立的，如果免费或低成本的话），它将对有序逻辑回归进行功率分析。

12 logistic power-analysis ordered-logit

1

Hosmer-Lemeshow与AIC进行逻辑回归

如果Hosmer-Lemeshow表示不合身，但AIC在所有模型中最低，请问您是否仍在使用该模型？如果删除变量，则Hosmer-Lemeshow统计数据并不重要（这意味着完全不存在拟合度不足）。但是AIC增加了。编辑：我认为通常，如果不同模型的AIC彼此接近（即），则它们基本上是相同的。但是AIC却大不相同。这似乎表明AIC最低的那个是我应该使用的那个，即使Hosmer-Lemeshow测试表明不是这样。< 2<2<2 也许HL测试仅适用于大样本？对于小样本量（我的样本量约为300），它具有较低的功耗。但是，如果我得到了显着的结果……这意味着即使功率很低，我也会遭到拒绝。如果我使用AICc与AIC会有所不同吗？您如何在SAS中获得AICc？我知道多样性可能存在问题。但是我先验地假设这些变量对结果有影响。任何意见？ Edit2：我认为我应该使用变量少一个而模型AIC较高且HL不显着的模型。原因是因为其中两个变量相互关联。因此，摆脱一个很有意义。

12 regression logistic hosmer-lemeshow-test

3

如果我认为结果是顺序的而不是绝对的，我将获得什么？

有多种预测序数和分类变量的方法。我不明白的是这种区别的重要性。是否有一个简单的示例可以弄清楚如果我下订单会出什么问题？在什么情况下没关系？例如，如果自变量也都是分类/有序的，是否会有区别？这个相关问题集中在自变量的类型上。在这里，我要问结果变量。编辑：我知道使用订单结构可以减少模型参数的数量，但是我仍然没有真正确信。这是一个示例（摘自有序逻辑回归的介绍，据我所知，序数逻辑回归的性能并不比多项式逻辑回归好： library(nnet) library(MASS) gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric")) ordered_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- gradapply[train_rows,] test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),] m <- polr(apply~pared+gpa, data=train_data) pred <- predict(m, test_data) return(sum(pred==test_data$apply)) } multinomial_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- …

12 logistic multinomial ordered-logit

5

逻辑回归中更好的默认分类

全面披露：这是家庭作业。我提供了指向数据集的链接（http://www.bertelsen.ca/R/logistic-regression.sav）我的目标是在此数据集中最大程度地预测违约贷款。到目前为止，我提出的每个模型都预测> 90％的非默认者，但是<40％的默认者使分类效率总体达到80％。那么，我想知道变量之间是否存在交互作用？在逻辑回归中，除了测试每种可能的组合之外，还有没有办法确定潜在的交互作用？或者，一种提高违约者分类效率的方法。我被困住了，任何建议都会对您选择单词，R代码或SPSS语法有所帮助。下面的直方图和散点图概述了我的主要变量（二分变量除外）主要变量的说明： age: Age in years employ: Years with current employer address: Years at current address income: Household income in thousands debtinc: Debt to income ratio (x100) creddebt: Credit card debt in thousands othdebt: Other debt in thousands default: Previously defaulted (dichotomous, yes/no, 0/1) ed: …

12 r logistic spss self-study

4

如何将迭代加权最小二乘（IRLS）方法应用于LASSO模型？

我已经使用IRLS算法对逻辑回归进行了编程。我想对LASSO进行处罚，以便自动选择正确的功能。在每次迭代中，解决了以下问题： (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 令为非负实数。我没有按照《The Elements of》中的建议对拦截进行处罚。统计学习。同为零的系数。否则，我从右边减去一个术语：λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} 但是，我不确定IRLS算法的修改。这是正确的方法吗？编辑：尽管我对此并不自信，但这是我最终想出的解决方案之一。有趣的是，此解决方案与我现在对LASSO的了解相对应。实际上，每次迭代有两个步骤，而不仅仅是一个步骤：第一步与之前相同：我们对该算法进行迭代（就像上面梯度的公式中），λ=0λ=0\lambda=0 第二步是新步骤：我们对第一步获得的向量每个分量（分量，它对应于截距）应用一个软阈值。这称为迭代软阈值算法。 ββ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

12 logistic generalized-linear-model feature-selection lasso convex

1

逻辑回归模型操纵

我想了解以下代码在做什么。编写代码的人不再在这里工作，并且几乎完全没有文档记录。有人认为“ 这是贝叶斯逻辑回归模型 ” ，有人要求我进行调查 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + …

12 r logistic bayesian generalized-linear-model

Questions tagged «logistic»