Questions tagged «logistic»

通常指利用逻辑函数的统计程序,最常见的是各种形式的逻辑回归

1
Logistic回归的最大似然估计器的偏差
我想了解有关Logistic回归的最大似然估计器(MLE)的几个事实。 总的来说,逻辑回归的MLE是否存在偏见?我会说“是”。我知道,例如,样本维数与MLE的渐近偏差有关。 您知道这种现象的基本例子吗? 如果MLE有偏差,那么MLE的协方差矩阵是否是最大似然函数的Hessian的逆是真的吗? 编辑:我经常遇到这个公式,没有任何证据;在我看来,这是一个相当随意的选择。

1
我应该选择哪种自举回归模型?
我有一个具有DV(疾病:是/否)和5个预测变量(人口统计学[年龄,性别,吸烟(是/否)),医学指标(常规)和一种随机治疗方法(是/否)的二元logistic回归模型])。我还为所有双向交互条件建模。主要变量居中,没有多重共线性的迹象(所有VIF <2.5)。 我有一些疑问: 引导程序是否比我的单一模型有利?如果是这样的话, 我应该选择哪种引导模式?我只是想看看引导算法是否遵循随机方法来创建新样本,或者它们是否具有严格的算法。因此,我每次尝试都重新采样了1000次(所以我有几个自举模型,每个模型都有1000次试验)。但是,每次引导模型的系数都不同(尽管试验次数始终为1000)。所以我想知道应该为我的报告选择哪一个?有些变化很小,并且不会影响我的系数的显着性,但是有些变化会使我的某些系数不显着(例如,只有那些在原始模型中P值接近0.05且变为0.06的系数)。 我应该选择更高的数字,例如10,000吗?如何确定此限制? 我还是应该首先重新引导吗?如果每次的结果都不同,我可以依靠它的结果吗? 您还有其他想法可以帮助我解决我的问题吗? 非常感谢。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
什么是预测受(0,1)约束的百分比的时间序列模型?
这必定会发生-预测介于0和1之间的事物。 在我的系列文章中,我怀疑有一个自动回归的成分,也有一个均值回归的成分,所以我希望我可以像ARIMA那样解释一些东西,但是我不希望它将来会飙升到1000% 。 您是否仅将ARIMA模型用作逻辑回归中的参数以将结果限制在0和1之间? 或者我在这里了解到Beta回归更适合(0,1)数据。我如何将其应用于时间序列?是否有好的R软件包或Matlab函数使拟合和预测变得容易?

4
在R中的逻辑回归模型上缺乏拟合度时,如何计算Pearson的检验统计量?
对于R中的逻辑回归模型(使用函数进行拟合),获得似然比(aka偏差)统计和不拟合(或拟合优)检验非常简单。容易使某些单元格计数低到足以使测试不可靠的程度。验证似然比检验是否缺乏拟合的可靠性的一种方法是将其检验统计量和P值与Pearson的卡方检验(或)缺乏拟合的检验进行比较。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 该glm对象及其summary()方法均未报告缺少拟合的Pearson卡方检验的检验统计量。在搜索中,我唯一想到的就是chisq.test()功能(在stats包装中):其文档说“ chisq.test执行卡方列联表测试和拟合优度测试”。但是,该文档缺乏有关如何执行此类测试的信息: 如果x是具有一行或一列的矩阵,或者如果x是向量y且未给出,则执行拟合优度检验(x被视为一维列联表)。的条目x必须是非负整数。在这种情况下,检验的假设是总体概率是否等于中的概率p,如果p未给出,则全部等于。 我猜想您可以y将glm对象的组件用作的x参数chisq.test。但是,您不能fitted.values将glm对象的组件用作的p参数chisq.test,因为会出现错误:“ probabilities must sum to 1.” 如何(在R中)至少可以计算出缺乏拟合的Pearson测试统计量,而不必手动执行这些步骤?χ2χ2\chi^2

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


1
如何应对具有多重回答的调查问题?
我有一个数据集,询问人们是否去过某些地方(例如A,B,C,D),他们可以做出多种选择,然后从他们的鼻子上取一个标本,看他们是否感染了某些疾病。 我需要找出去某个地方被感染的相对风险,我现在只能想到逻辑回归,还有其他建议吗? 谢谢。
10 logistic 

1
R中逻辑模型的输出
我正在尝试解释以下类型的物流模型: mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) predict(mdl)每个数据点的预期成功几率是否输出?是否有一种简单的方法可以为模型的每个因子级别(而不是所有数据点)列表几率?

3
如何为Logistic回归模型减少正确的预测变量
因此,我一直在阅读一些有关建模的书籍(或其中的一部分)(包括F. Harrell的“回归建模策略”),因为我目前的现状是我需要基于二进制响应数据进行逻辑模型处理。我的数据集中有连续数据,分类数据和二进制数据(预测变量)。基本上我现在大约有100个预测变量,对于一个好的模型来说,显然太多了。同样,这些预测变量中有许多是相关的,因为尽管它们有些不同,但它们通常基于相同的度量。 无论如何,我一直在阅读中,使用单变量回归和逐步技术是您可以做的一些最糟糕的事情,目的是减少预测变量的数量。我认为LASSO技术还可以(如果我正确理解的话),但是显然您不能在100个预测变量上使用它,并且认为会带来任何好处。 那么我在这里有什么选择呢?我是否真的必须坐下来,与我的所有主管和工作中的聪明人交谈,并真的考虑一下(应该是错误的)前5名最佳预测指标是什么,或者我应该选择哪种方法?考虑代替吗? 是的,我也知道这个话题已经被广泛讨论(在线和书籍中),但是当您对该建模领域的新手了解时,有时似乎有点不知所措。 编辑: 首先,我的样本量为+1000名患者(这在我的领域中是很多),并且其中有70-170个阳性反应(例如,其中170个是阳性反应,而其中一种情况约为900个没有反应) 。 基本上,该想法是预测放射治疗后的毒性。我有一些预期的二元响应数据(即毒性,或者是毒性(1),或者是毒性(0)),然后我有几种类型的指标。一些指标是患者特定的,例如年龄,使用的药物,器官和目标体积,糖尿病等,然后我基于目标的模拟治疗场获得了一些治疗特定的指标。从中我可以找到几个预测因子,这些预测因子在我的领域中通常是高度相关的,因为大多数毒性与所接收的辐射量(含糖量)高度相关。因此,例如,如果我治疗肺部肿瘤,则有一定剂量的剂量可能会击中心脏。然后,我可以计算出多少x心脏体积接收到x剂量剂量,例如“ 只需选择一个开始即可(尽管过去的实验当然尝试过,而且我也希望这样做),因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量(再次举例来说,还有其他类似的指标,其中应用了相同的策略)。是的,这几乎就是我的数据集的样子。一些不同的指标,有些有些相似。只需选择一个开始即可(尽管过去的实验当然尝试过,而且我也希望这样做),因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量(再次举例来说,还有其他类似的指标,其中应用了相同的策略)。是的,这几乎就是我的数据集的样子。一些不同的指标,有些有些相似。几乎是我的数据集的样子。一些不同的指标,有些有些相似。几乎是我的数据集的样子。一些不同的指标,有些有些相似。 然后,我要做的是建立一个预测模型,这样我就可以预测哪些患者有发生某种毒性的风险。而且由于响应数据是二进制的,所以我的主要思想当然是使用逻辑回归模型。至少这是其他人在我领域所做的。但是,在完成许多已经完成的论文时,其中有些似乎是错误的(至少在阅读这些特定类型的建模书籍(例如F. Harrel's)时)。许多人使用单变量回归分析来选择预测变量,并将其用于多元分析(如果我没记错的话,建议您这样做),并且许多人使用逐步技术来减少预测变量的数量。当然,这还不是全部。许多人使用LASSO,PCA,交叉验证,自举等,但是我所看过的 关于功能选择,这可能是我现在的位置。如何选择/找到在模型中使用的正确预测变量?我曾经尝试过这些单变量/逐步方法,但是每次我都想:“为什么这样做,如果错了?”。但是也许这是一个很好的方法,至少在最后显示了“好的模型”以正确的方式与“坏模型”以错误的方式相抵触。因此,我现在可能会以某种错误的方式进行操作,我需要帮助的是以正确的方式进行操作。 很抱歉,编辑时间太长。 编辑2: 只是我的数据看起来像一个简单的例子: 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 …



3
在其他回归变量上回归Logistic回归残差
将OLS回归应用于连续响应后,可以通过依次运行每个协变量上的残差回归来建立多元回归方程。我的问题是,有没有办法通过逻辑回归残差进行逻辑回归呢? 也就是说,如果我想使用标准的广义线性建模方法来估计,有没有一种方法可以对x进行逻辑回归并获得伪残差R_1,然后对z回归R_1到得到逻辑回归系数的无偏估计量。对教科书或文献的参考将不胜感激。Pr(Y=1|x,z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)xxxR1R1R_1R1R1R_1zzz

1
为什么多项式回归中的贝叶斯可信区间偏向而置信区间正确?
考虑下面的绘图,在该绘图中,我模拟了以下数据。我们看一下二元结果,用黑线表示真实概率为1。协变量x和p (y o b s = 1 | x )之间的函数关系是具有逻辑链接的三阶多项式(因此在双向过程中是非线性的)。yobsyobsy_{obs}xxxp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 绿线是GLM logistic回归拟合,其中被引入为三阶多项式。虚线绿线是围绕预测的95%置信区间p (Ý ø b 小号 = 1 | X ,β),其中β拟合回归系数。我曾经和这个。xxxp(yobs=1|x,β^)p(yobs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm 类似地,pruple线与95%可信区间的平均后的使用均匀现有贝叶斯逻辑回归模型的。为此,我使用了具有功能的软件包(设置提供了统一的先验信息)。p(yobs=1|x,β)p(yobs=1|x,β)p(y_{obs}=1 | x, \beta)MCMCpackMCMClogitB0=0 红点表示数据集中的观测值,黑点表示y o b s = 0的观测值。请注意,在分类/离散分析中常见的是y,但没有观察到p (y o b s = 1 | x )。yobs=1yobs=1y_{obs}=1yobs=0yobs=0y_{obs}=0yyyp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 可以看到几件事: 我故意模拟了左手稀疏。我希望由于缺乏信息(观察)而在这里扩大信心和可信区间。xxx …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.