线性回归或有序逻辑回归预测葡萄酒等级(从0到10)


18

我从这里获得了葡萄酒数据,该数据由11个数值自变量组成,每个条目的从属评分与0到10之间的值相关。这使它成为使用回归模型研究变量与关联变量之间关系的绝佳数据集。评分。但是,线性回归是否合适,还是使用多项式/有序逻辑回归更好?

对于特定类别,逻辑回归似乎更好,即没有连续因变量,但(1)有11个类别(有点太多?),(2)经检查,这些类别中只有6-7个数据,即其余5-4类别在数据集中没有示例。

另一方面,线性回归应该线性地估计0-10之间的等级,这似乎更接近我要找出的数值。但是因变量在数据集中不是连续的。

哪种方法更好?注意:我正在使用R进行分析

编辑,解决答案中提到的一些要点:

  • 没有业务目标,因为这实际上是针对大学课程的。任务是分析我认为合适的选择数据集。
  • 收视率的分布看起来很正常(直方图/ qq图)。数据集中的实际值在3到8之间(即使从技术上来说为0到10)。

Answers:


9

有序logit模型更合适,因为您有一个因变量,它是一个等级,例如7比4好。因此,有一个明确的命令。

这使您可以获得每个仓位的概率。您需要考虑的假设很少。你可以在这里看看。

序数逻辑(和序数概率)回归的基础假设之一是每对结果组之间的关系相同。换句话说,序数逻辑回归假设描述响应变量的最低与所有较高类别之间的关系的系数与描述第二低的类别与所有较高类别之间的关系的系数相同。这称为比例赔率假设或并行回归假设。

一些代码:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

您可以在这里这里这里这里获得进一步的解释。

请记住,您需要将系数转换为优势比,然后转换为概率,以对概率进行清晰的解释。

您可以通过一种简单明了的方式来计算这些值:

exp(βi)=OddsRatio

ËXpβ1个ËXpβ一世=P[RØb一种b一世一世Ťÿ

(不想太技术性)


4

我想对此问题提供另一种观点:在现实世界中,遇到此问题的可能性较小,因为该做什么取决于业务需求

现实世界中的基本问题是得到预测后该怎么办?

  • 假设企业想要丢弃“低品质”葡萄酒。然后,我们需要对“坏有多糟”(例如质量低于)进行一些定义。根据定义,应使用二进制逻辑回归,因为决策是二进制的。(垃圾桶或垃圾桶,中间没有东西)。2

  • 假设企业希望选择一些优质的葡萄酒发送到三种类型的餐厅。然后,将需要多类分类。

总而言之,我想说的是,做什么实际上取决于获得预测后的需求,而不是仅仅查看响应变量的属性。


1

尽管就模型假设而言,有序logit模型(由@ adrian1121详细介绍)将是最合适的,但我认为多元线性回归也具有一些优势。

  1. 易于解释。线性模型比有序logit模型更容易解释。
  2. 利益相关者的安慰。模型的用户可能更喜欢线性回归,因为他们更可能知道线性回归。
  3. 更简约(更简单)。较简单的模型也可能执行得很好,请参阅相关主题

大多数响应在3到8之间,这一事实向我表明,线性模型可以满足您的需求。我并不是说它“更好”,但这可能是一种更实际的方法。


0

原则上,有序的logit模型似乎是合适的,但是10(甚至7)个类别相当多。

1 /最终进行一些重新编码是否有意义(例如,等级1-4将合并为1个单一模式,例如“低等级”)?

2 /评级分布是什么?如果正态分布很好,则线性回归将做得很好(请参阅线性概率模型)。

3 /否则,我将采用一种完全不同的方法,称为“ β回归 ”-与传统的5点量表相比,11点的量表相当详细-我认为将评分量表视为“强度”是可以接受的标度,其中0 = Null和1 = Full / Perfect-通过这样做,您基本上会假设您的标度是区间类型(而不是有序数),但是对我来说,这是可以接受的。


3
为什么10(或7)个类别很多?是否有一些根本的技术原因导致10种类别在有序logit模型中无法正常运行,或者您是从纯粹的实践角度而言?(例如,对答案hxd1011的类似考虑。)
RM

只要数据允许估计具有“这么多”类别的有序logit(OL),就没有技术原因。但是,指定具有11个类别的OL模型意味着估计10个“常数”项(即阈值参数)-这对我来说听起来很有意义,尤其是如果某些类别在数据库中没有很好地表示的话-我的直觉是针对11个类别有点过时了,我要么将评级视为连续变量,要么将某些模式崩溃以指定更简约(也许更有意义)的OL模型。
乌姆卡

-1

我不是逻辑回归专家,但是我想说,由于离散因变量,您想使用多项式。

线性回归可以输出可以从因变量的可能边界外推算的系数(即,对于给定的回归系数,自变量的增加将导致因变量超出边界)。

多项式回归将为因变量的不同结果提供不同的概率(即,回归系数将为您提供它们如何增加获得更好分数的概率,而不会超出分数范围)。


3
多项式适用于多个无序类别。顺序物流(OP在问题中提出的建议)适用于多个有序类别。
格雷戈尔

-1

另一种可能性是使用随机森林。有两种方法可以测量随机森林下变量的“重要性”:

  1. 排列:输入变量的重要性XĴ与随机改组该变量导致的错误率平均增加成正比。随机改组XĴ 破坏之间的关系 XĴÿ,以及所有其他 Xs。
  2. 节点杂质:输入变量的重要性XĴ 与由于分裂导致的节点杂质总减少成正比 XĴ 穿过所有树木。

随机森林也适用于称为“部分依赖图”的数据可视化类型。有关更多详细信息,请参见此深入教程

部分依赖性和置换重要性并非特定于随机森林模型,但它们的流行度随随机森林的流行而增长,因为对于随机森林模型而言,它们的计算效率很高。


1
我知道这是一个切线的答案,但我想知道为什么这被否决了。不对吗
Shadowtalker '17
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.