Questions tagged «ordered-logit»

有序logit模型(也称为有序/有序逻辑回归)是从二元因变量到有序因变量的逻辑回归的扩展。普遍的特殊情况是比例赔率模型。

1
绘制并解释序数逻辑回归
我有一个序数相关变量,易用性,范围从1(不容易)到5(非常容易)。独立因子值的增加与易用性等级的提高相关。 我的两个自变量(condA和condB)是分类的,每个具有2个级别,而2(abilityA,abilityB)是连续的。 我在R中使用了序数包,它使用了我认为是的 (来自@狞的答案在这里)分对数(p (ÿ⩽ 克))= lnp (ÿ⩽ 克)p (ÿ> 克)= β0G− (β1个X1个+ ⋯ + βpXp)(克= 1 ,… ,k − 1 )Logit(p(ÿ⩽G))=ln⁡p(ÿ⩽G)p(ÿ>G)=β0G-(β1个X1个+⋯+βpXp)(G=1个,…,ķ-1个)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) 我一直在独立地学习这一点,并希望在我仍在努力的过程中提供任何帮助。除了序数包随附的教程外,我还发现以下内容会有所帮助: 序数逻辑回归的解释 有序逻辑回归中的负系数 但是我试图解释结果,并将不同的资源放在一起,并陷入困境。 …

6
线性回归或有序逻辑回归预测葡萄酒等级(从0到10)
我从这里获得了葡萄酒数据,该数据由11个数值自变量组成,每个条目的从属评分与0到10之间的值相关。这使它成为使用回归模型研究变量与关联变量之间关系的绝佳数据集。评分。但是,线性回归是否合适,还是使用多项式/有序逻辑回归更好? 对于特定类别,逻辑回归似乎更好,即没有连续因变量,但(1)有11个类别(有点太多?),(2)经检查,这些类别中只有6-7个数据,即其余5-4类别在数据集中没有示例。 另一方面,线性回归应该线性地估计0-10之间的等级,这似乎更接近我要找出的数值。但是因变量在数据集中不是连续的。 哪种方法更好?注意:我正在使用R进行分析 编辑,解决答案中提到的一些要点: 没有业务目标,因为这实际上是针对大学课程的。任务是分析我认为合适的选择数据集。 收视率的分布看起来很正常(直方图/ qq图)。数据集中的实际值在3到8之间(即使从技术上来说为0到10)。

2
序数逻辑回归的解释
我在R中运行此序数逻辑回归: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 我得到了该模型的摘要: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

2
如何在R中同时使用数字/分类值进行有序Logistic回归分析?
基本数据:我约有1,000个人标有评估:“ 1,” [好],“ 2”,[中]或“ 3” [差] –这些是我将来要为人们预测的价值。除此之外,我还有一些人口统计信息:性别(分类:男/女),年龄(数字:17-80)和种族(分类:黑人/高加索人/拉丁裔)。 我主要有四个问题: 我最初试图将上述数据集作为多元回归分析来运行。但是我最近了解到,由于我的依存关系是有序因素,而不是连续变量,因此我应该对此类情况使用序数逻辑回归。我最初使用的是这样的东西mod <- lm(assessment ~ age + gender + race, data = dataset),有人能指出我正确的方向吗? 从那里开始,假设我对系数感到满意,就知道如何仅将数值插入x1,x2等。但是,例如在有多种响应的情况下,我将如何处理种族:黑人/高加索人/拉丁美洲人?因此,如果它告诉我白种人系数为0.289,而我要预测的某个人是白种人,那么由于值不是数字,我该如何重新插入? 我还缺少一些随机值-有些是种族的,有些是性别的,等等。我是否还需要做其他一些事情以确保它不会歪斜任何东西?(我注意到,当我的数据集被加载到R-Studio中时,当丢失的数据被加载为时NA,R表示类似(162 observations deleted due to missingness)-但如果它们被加载为空白,则它什么都不做。) 假设所有这些都可以解决,并且我有我要预测的具有性别,年龄和种族的新数据-R中有没有更简单的方法可以通过我的新系数公式通过所有这些方法来运行所有这些数据,而不是手动进行?(如果这个问题在这里不合适,我可以将其带回R论坛。)

1
有序逻辑回归中的负系数
假设我们有序数响应和我们认为的一组变量将解释。然后,我们对(响应)进行(设计矩阵)的有序逻辑回归。y:{Bad, Neutral, Good}→{1,2,3}y:{Bad, Neutral, Good}→{1,2,3}y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}X:=[x1,x2,x3]X:=[x1,x2,x3]X:=[x_1,x_2,x_3]yyyXXXyyy 假设的估计系数称为,在有序logistic回归中为。如何解释的优势比(OR)?β 1 - 0.5 Ë - 0.5 = 0.607x1x1x_1β^1β^1\hat{\beta}_1−0.5−0.5-0.5e−0.5=0.607e−0.5=0.607e^{-0.5} = 0.607 我说“在一个增加1个单位,其他条件不变,观察的几率是观察的时间赔率,并在相同的变化,观察的几率是观察的时间赔率 “?x1x1x_1GoodGood\text{Good}0.6070.6070.607Bad∪NeutralBad∪Neutral\text{Bad}\cup \text{Neutral}x1x1x_1Neutral∪GoodNeutral∪Good\text{Neutral} \cup \text{Good}0.6070.6070.607BadBad\text{Bad} 在我的教科书或Google中找不到负系数解释的任何示例。

2
如何使用具有随机效应的有序逻辑回归?
在我的研究中,我将使用几种指标来衡量工作量。具有心率变异性(HRV),皮肤电活动(EDA)和主观量表(IWS)。标准化后,IWS具有三个值: 工作量低于正常水平 平均工作量 工作量高于正常水平。 我想看看生理指标可以很好地预测主观工作量。 因此,我想使用比率数据来预测序数值。根据:如何在R中同时使用数字/分类值进行有序逻辑回归分析?使用此MASS:polr功能很容易做到。 但是,我也想考虑随机效应,例如受试者之间的差异,性别,吸烟等。在本教程中,我看不到如何向添加随机效应MASS:polr。替代地lme4:glmer,然后将是一种选择,但是该功能仅允许预测二进制数据。 是否可以向序数逻辑回归添加随机效应?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
R中的Brant测试[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6个月前关闭。 在顺序逻辑回归中测试平行回归假设时,我发现有几种方法。我既使用了图形方法(如Harrell的书中所述),也使用了R中使用 序数包的方法。 但是,我还要对单个变量和整个模型运行Brant测试(来自Stata)。我环顾四周,但找不到在R中实现的代码。 R中有Brant测试的实现吗?

2
给定顺序逻辑回归模型,您如何预测响应类别?
我想预测一个健康问题。我按顺序排列了3个结果类别:“正常”,“轻度”和“严重”。我希望从两个预测变量(测试结果(连续,区间协变量)和有此问题的家族史(是或否)中进行预测。在我的样本中,概率为55%(正常),35%(轻度)和10%(严重)。从这个意义上讲,我总是可以预测“正常”,并且在55%的时间是正确的,尽管这不会给我有关单个患者的任何信息。我适合以下模型: (y的切点 ≥ 1 )ˆ(y的切点 ≥ 2 )ˆβ^牛逼Ë 小号ŧβ^F一米我升ý ħ 我š 吨ö ř ÿ = − 2.18= - 4.27= 0.60= 1.05the cut point for (y≥1)^=−2.18the cut point for (y≥2)^=−4.27β^test=0.60β^family history=1.05\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ …

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

1
Python中的顺序逻辑回归
我想在Python中运行顺序逻辑回归-对于具有三个级别并具有一些解释性因素的响应变量。该statsmodels软件包支持二进制logit和多项式logit(MNLogit)模型,但不支持有序logit。由于基础数学没有太大不同,我想知道是否可以使用这些方法轻松实现?(或者,其他可以使用的Python软件包也受到赞赏。)

2
交叉验证和有序逻辑回归
我正在尝试了解有序逻辑回归的交叉验证。游戏的目的是验证分析中使用的模型。 我首先构造一个玩具数据集: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # P( y ≤ i ) is given by logit^{-1} ( a[i]+x ) p <- outer(a,x, function(a,x) 1/(1+exp(-a-x)) ) # computing the …


3
如果我认为结果是顺序的而不是绝对的,我将获得什么?
有多种预测序数和分类变量的方法。 我不明白的是这种区别的重要性。是否有一个简单的示例可以弄清楚如果我下订单会出什么问题?在什么情况下没关系?例如,如果自变量也都是分类/有序的,是否会有区别? 这个相关问题集中在自变量的类型上。在这里,我要问结果变量。 编辑: 我知道使用订单结构可以减少模型参数的数量,但是我仍然没有真正确信。 这是一个示例(摘自有序逻辑回归的介绍,据我所知,序数逻辑回归的性能并不比多项式逻辑回归好: library(nnet) library(MASS) gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric")) ordered_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- gradapply[train_rows,] test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),] m <- polr(apply~pared+gpa, data=train_data) pred <- predict(m, test_data) return(sum(pred==test_data$apply)) } multinomial_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- …

2
为排名数据绘制回归线(Spearman相关性)是否“可行”?
我有一些我计算出Spearman相关性的数据,并希望将其可视化以用于出版物。因变量是排名的,独立变量不是。我想可视化的是总体趋势,而不是实际的斜率,因此我对独立变量进行了排名,并应用了Spearman相关/回归。但是,当我绘制数据并将其插入到手稿中时,我偶然发现了这个声明(在此网站上): 当您进行Spearman秩相关时,几乎不会将回归线用于描述或预测,因此不要计算回归线的等价物。 然后 您可以按照与线性回归或相关性相同的方式来绘制Spearman等级相关性数据。但是,不要在图表上放置回归线。使用等级相关性对其进行分析后,将线性回归线放在图形上会产生误导。 问题是,回归线与我未对独立变量进行排名并计算皮尔逊相关性时没有太大不同。趋势是相同的,但是由于期刊中彩色图形的费用过高,所以我使用单色表示,并且实际数据点重叠得太多,以致无法识别。 当然,我可以通过制作两个不同的图来解决此问题:一个用于数据点(排名),另一个用于回归线(未排名),但是如果事实证明我引用的来源有误或存在问题,就我而言,这不是问题,它将使我的生活更轻松。(我也看到了这个问题,但这并没有帮助我。) 编辑其他信息: 如果将分类算法的性能进行比较,则x轴上的自变量表示特征的数量,y轴上的因变量表示等级。现在,我有一些算法可以平均比较,但是我想对我的情节说的是:“虽然分类器A越好,存在的特征越多,分类器B越好,存在的特征越多” 编辑2以包括我的地块: 绘制的算法等级与特征数量的关系 绘制的算法等级与特征等级的对比 因此,重复标题中的问题: 可以为Spearman相关/回归的排名数据绘制回归线吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.