我从这里获得了葡萄酒数据,该数据由11个数值自变量组成,每个条目的从属评分与0到10之间的值相关。这使它成为使用回归模型研究变量与关联变量之间关系的绝佳数据集。评分。但是,线性回归是否合适,还是使用多项式/有序逻辑回归更好?
对于特定类别,逻辑回归似乎更好,即没有连续因变量,但(1)有11个类别(有点太多?),(2)经检查,这些类别中只有6-7个数据,即其余5-4类别在数据集中没有示例。
另一方面,线性回归应该线性地估计0-10之间的等级,这似乎更接近我要找出的数值。但是因变量在数据集中不是连续的。
哪种方法更好?注意:我正在使用R进行分析
编辑,解决答案中提到的一些要点:
- 没有业务目标,因为这实际上是针对大学课程的。任务是分析我认为合适的选择数据集。
- 收视率的分布看起来很正常(直方图/ qq图)。数据集中的实际值在3到8之间(即使从技术上来说为0到10)。