统计和大数据 logistic

1

对二进制时间序列建模的常用方法是什么？是否有纸质或教科书在其中处理？我认为具有强自相关的二进制过程。类似于从零开始的AR（1）进程的符号。说且有白噪声。然后，由定义的二进制时间序列将显示自相关，我想用以下代码进行说明X0=0X0=0X_0 = 0Xt+1=β1Xt+ϵt,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, ϵtϵt\epsilon_t(Yt)t≥0(Yt)t≥0(Y_t)_{t \ge 0}Yt=sign(Xt)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) X = rep(0,100) beta = 0.9 sigma = 0.1 for(i in 1:(length(X)-1)){ X[i+1] =beta*X[i] + rnorm(1,sd=sigma) } acf(X) acf(sign(X)) 如果我得到二进制数据并且我所知道的是存在显着的自相关，那么教科书/常用的建模方法是什么？YtYtY_t 我认为，如果使用外部回归变量或季节性假人，我可以进行逻辑回归。但是，纯时间序列方法是什么？编辑：确切地说，我们假设sign（X）最多可自动关联4个滞后。这将是4阶的马尔可夫模型，我们可以对其进行拟合和预测吗？编辑2：同时，我偶然发现了时间序列的glms。这些是解释错误的变量，它们是滞后的观察结果和外部回归变量。但是，这似乎是针对泊松和负二项式分布计数完成的。我可以使用泊松分布来估算伯努利斯。我只是想知道是否没有明确的教科书方法。编辑3：赏金到期...有什么想法吗？

10 regression time-series logistic binary-data autoregressive

1

在训练逻辑回归中给予“部分信誉”（连续结果）是否是一个好主意？

我正在训练逻辑回归，以预测哪些运动员最有可能完成艰苦的耐力赛。很少有跑步者完成这场比赛，所以我的课时失衡非常严重，并且只有很少的成功案例（也许是几十个）。我觉得我可以从几十个几乎做到这一点的跑步者那里得到一些好的“信号” 。（我的训练数据不仅完成了，而且还没有完成，实际达到了多少。）因此，我想知道是否包括一些“部分功劳”是一个糟糕的主意。我想出了一些用于部分功劳的函数，坡度和逻辑曲线，可以给它们提供各种参数。与回归的唯一区别是，我将使用训练数据来预测修改后的连续结果，而不是二进制结果。比较他们对测试集的预测（使用二进制响应），我得出的结论还很不确定-逻辑部分信用似乎在某种程度上改善了R平方，AUC，P / R，但这只是使用小样本。我不关心预言正在向着完成均匀偏见-我在意的是正确的排名上出现的可能性参赛者完成，或者甚至估计其相对整理的可能性。我了解到逻辑回归假设预测变量与比值比的对数之间存在线性关系，并且如果我开始混淆结果，显然该比值没有任何实际解释。我确信从理论上讲这并不明智，但它可能有助于获得一些附加信号并防止过拟合。（我的预测变量几乎与成功一样多，因此使用部分完成的关系作为检查完全完成的关系可能会有所帮助）。在负责任的实践中曾经使用过这种方法吗？不管哪种方式，是否还有其他类型的模型（也许是某种明确地对危险率建模的模型，应用于距离而不是时间）可以更适合此类分析？

10 logistic binary-data continuous-data

3

RBF SVM用例（对比逻辑回归和随机森林）

具有径向基函数内核的支持向量机是一种通用的监督分类器。虽然我知道这些SVM的理论基础及其优点，但我不知道它们是首选方法的情况。那么，RBF SVM是否比其他ML技术优越呢？（无论是在得分方面，还是其他方面-诸如健壮性，入门容易性，可解释性等）我在问，因为我的默认方法围绕逻辑回归（也许有些交互作用），随机森林和一些神经网络。我做ML的所有朋友（有些是Kaggle赢家）都不是SVM用户（但这可能是我所在社区的产物，或者是他们处理的问题）。

10 machine-learning logistic classification svm random-forest

3

Logistic回归中的排名功能

我使用了Logistic回归。我有六个功能，我想知道此分类器中比其他功能更能影响结果的重要功能。我使用了Information Gain，但似乎并不依赖于所使用的分类器。是否有任何方法可以根据特定的分类器（例如Logistic回归）根据其重要性对特征进行排名？任何帮助将不胜感激。

10 logistic feature-selection ranking regression-strategies

1

在2x2和1x2（单因素-二进制响应）列联表中是否进行逻辑回归与卡方检验？

我想了解2x2和Ix2列联表中逻辑回归的使用。例如，以此为例使用卡方检验和逻辑回归有什么区别？像这样具有多个名义因子的表（Ix2表）呢：还有一个类似的问题在这里 -但答案是主要是卡方能够处理MXN表，但我的问题是什么是specificalyl的时候有一个二元结果和单一标称因素。（链接的线程也引用该线程，但这与多个变量/因数有关）。如果只是具有二进制响应的单个因素（即无需控制其他变量），那么进行逻辑回归的目的区别是什么？

10 logistic chi-squared logit contingency-tables

2

逻辑模型的RMSE（均方根误差）

我对使用RMSE（均方根误差）比较不同逻辑模型的有效性存在疑问。响应为0或1，并且预测为0- 之间的概率1。以下应用的方式对二进制响应也有效吗？ # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") mydata$rank <- factor(mydata$rank) mylogit <- glm(admit ~ …

10 regression logistic generalized-linear-model glmnet rms

3

为什么要在逻辑回归中对分类预测变量进行WOE转换？

类别变量的证据权重（WOE）转换何时有用？该示例可以在WOE转换中看到（因此，对于一个响应，＆与分类预测类，＆成功出试验的内个这种预测器的类别，对于所述WOE个类别被定义为k y j n j j jÿÿyķķkÿĴÿĴy_jñĴñĴn_jĴĴjĴĴj 日志ÿĴ∑ķĴÿĴ∑ķĴ（nĴ- ÿĴ）ñĴ- ÿĴ日志⁡ÿĴ∑ĴķÿĴ∑Ĵķ（ñĴ-ÿĴ）ñĴ-ÿĴ\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} ＆转换包括使用其WOE对分类预测器的每个类别进行编码，以形成新的连续预测器。）我想了解WOE转换有助于逻辑回归的原因。这背后的理论是什么？

10 logistic categorical-data regression-strategies

3

当大时比较嵌套的二进制logistic回归模型

为了更好地问我的问题，我已经提供了一些来自一个16级模型（输出fit）和17变量模型（fit2）以下（在这些模型中的所有预测变量是连续的，在这些模型之间的唯一区别在于fit不包含变量17（var17））： fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416 max |deriv| 3e-05 gp 0.180 tau-a 0.177 Brier 0.190 fit2 Model Likelihood Discrimination …

10 r regression logistic model-selection large-data

1

研究逻辑回归的稳健性，以防止违反逻辑线性

我正在执行具有二进制结果（启动和不启动）的逻辑回归。我混合的预测变量都是连续变量或二分变量。使用Box-Tidwell方法，我的连续预测变量之一可能违反了logit线性的假设。拟合优度统计没有迹象表明拟合是有问题的。随后，我再次运行回归模型，将原始连续变量替换为：首先是平方根变换，其次是变量的二分形式。在检查输出时，拟合优度似乎略有提高，但残差成为问题。参数估计值，标准误差和仍然相对相似。在我的假设中，在这三个模型中，数据的解释都没有改变。exp(β)exp⁡(β)\exp(\beta) 因此，就我的结果的实用性和数据解释的意义而言，似乎应该使用原始的连续变量来报告回归模型。我想知道这一点： Logistic回归何时能抵抗logit假设线性度的潜在违反？鉴于我上面的示例，在模型中包括原始连续变量似乎可以接受吗？有什么参考或指南可以推荐何时可以令人满意地接受模型对潜在的logit线性违反的鲁棒性？

10 regression logistic references assumptions robust

1

当结果变量不是病例/对照状态时，估计病例对照设计中的逻辑回归系数

考虑通过以下方式从大小为的总体中采样数据：对于NNNk=1,...,Nk=1,...,Nk=1, ..., N 观察个体的“疾病”状态kkk 如果他们患有疾病，则以概率将其包括在样本中pk1pk1p_{k1} 如果他们没有疾病，则以概率包括他们。pk0pk0p_{k0} 假设您观察到二元结果变量和预测变量向量，对于这种方式采样的对象。结果变量不是 “疾病”状态。我想估计逻辑回归模型的参数：YiYiY_iXiXi{\bf X}_ii=1,...,ni=1,...,ni=1, ..., n log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβlog⁡(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta} 我只关心（对数）比值比ββ{\boldsymbol \beta}。拦截与我无关。我的问题是：我可以通过忽略采样概率\ {p_ {i1}，p_ {i0} \}，i = 1，...，n并像拟合模型一样来获得ββ{\boldsymbol \beta}的合理估计这是普通的随机样本吗？{pi1,pi0}{pi1,pi0}\{ p_{i1}, p_{i0} \}i=1,...,ni=1,...,ni=1, …

10 logistic case-control-study

1

如何在ARIMA模型的观察值48中加入创新的离群值？

我正在处理数据集。使用一些模型识别技术后，我得出了一个ARIMA（0,2,1）模型。我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值（IO）。如何将这个离群值合并到模型中，以便将其用于预测？我不想使用ARIMAX模型，因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗？以下是我的价值观： VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

如何获得总体r平方变化的置信区间

为了简单的示例，假设有两个线性回归模型模型1有三个预测，x1a，x2b，和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程，其中模型1 解释的种群方差为，模型解释为。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2（2 ）- ρ2（1 ）Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量，但我的研究兴趣涉及大量不同数量的预测变量（例如5个和30个）。我首先想到的是使用 Δ [R2一dĴ= r2一dj （2 ）- - [R2一dĴ （1 ）Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导，但是我不确定是否会适当的。问题是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2？如何获得总体r平方变化的置信区间（即Δ ρ2Δρ2\Delta\rho^2）？引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间？任何对模拟或已发表文献的引用也将受到欢迎。范例程式码如果有帮助，我在R中创建了一个小的模拟数据集，可用于演示答案： …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

2

几种逻辑回归与多项式回归

是否可以执行几个二进制逻辑回归而不是多项式回归？从这个问题出发：多项式逻辑回归与一对多对数逻辑回归我看到该多项式回归可能具有较低的标准误差。但是，我想使用的软件包尚未推广到多项式回归（ncvreg：http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf），所以我想知道是否可以简单地做而是几个二进制逻辑回归。

10 r logistic multinomial

1

卢斯选择公理，关于条件概率的问题[关闭]

已关闭。这个问题需要细节或说明。它当前不接受答案。想改善这个问题吗？添加细节并通过编辑此帖子来澄清问题。 2年前关闭。我正在读Luce（1959）。然后，我发现了以下语句：当一个人在备选方案中进行选择时，通常他们的反应似乎受以选择集为条件的概率所支配。但是普通概率论及其对条件概率的标准定义似乎并不是所需要的。一个例子说明了困难。在决定如何从家到另一座城市旅行时，您可以选择乘飞机（a），公共汽车（b）或汽车（c）。令A，B，C表示与旅行形式相关的自然状态的不确定性。请注意，如果选择c，则A和B的所有不确定性都将保留，因为无论您是否在飞机上，飞机都会飞行并且公共汽车在运行。但是，如果您选择a或b，那么您的汽车将保留在车库中，并且从驾驶汽车起就彻底改变了C集。引入第一章的选择公理是对构建类似于概率的选择理论的首次尝试，该理论绕过了固定的，通用的样本空间假设。资料来源：http : //www.scholarpedia.org/article/Luce's_choice_axiom 对我来说，概率度量由三重态，样本空间，西格玛代数F和最后一个度量P定义。ΩΩ\OmegaFF\mathcal{F}PPP 对于上述示例，如果我定义以下内容，这似乎是个问题： Ω={bus,car,airplane}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} 共同统计中的一个关键假设是ceteris paribus条件。这是因为违反cp假设而需要在选择行为的背景下调整基本概率论的原因吗？

10 probability logistic self-study conditional-probability multinomial

2

对数转换线性回归，对数回归与对数混合模型之间有什么区别？

假设我有10个学生，每个学生都尝试解决20个数学问题。对问题的评分为正确或不正确（在longdata中），每个学生的表现都可以通过准确性度量（在subjdata中）进行总结。下面的模型1、2和4看起来会产生不同的结果，但是我知道它们在做相同的事情。他们为什么产生不同的结果？（我提供了模型3作为参考。） library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

10 r regression logistic generalized-linear-model binomial

Questions tagged «logistic»