具有序数自变量的连续因变量

17

给定连续因变量y和包括序数变量X _1的自变量，如何拟合线性模型R？是否有关于此类模型的论文？

— 讲师
source

29

@Scortchi让您了解有关编码的有序协变量的答案。我已经多次就建议我的答案，以对调查回答了两个人口统计工具变量的影响（李克特量表）。具体而言，建议使用Gertheiss ^（2013） ordPens程序包，并参考Gertheiss和Tutz ^（2009a）进行理论背景和仿真研究。

您可能需要的特定功能是ordSmooth^*。这从根本上平滑了有序变量水平上的虚拟系数，使其与相邻等级之间的差异较小，从而减少了过拟合并改善了预测。当数据实际为序数时，它对于连续（或就其度量而言）数据的回归模型的最大似然估计（在这种情况下，通常是最小二乘）的估计效果通常好于（或有时好于）。它似乎与各种广义线性模型兼容，并且允许您将名义和连续预测变量输入为单独的矩阵。

Gertheiss，Tutz及其同事提供了一些其他参考，并在下面列出。其中一些可能包含替代方案-甚至Gertheiss和Tutz ^{（2009a）都将}脊粗加工作为另一种替代方案。我本人还没有全部研究过，但是足以说这解决了@Erik关于序数预测变量的文献太少的问题！

参考文献

^{-Gertheiss，J.（2013年6月14日）。ordPens：顺序预测变量的选择和/或平滑化，版本0.2-1。取自http://cran.r-project.org/web/packages/ordPens/ordPens.pdf。

-Gertheiss，J.，Hogger，S.，Oberhauser，C.，＆Tutz，G.（2011）。选择按比例缩放的自变量，并将其应用于功能性核心集的国际分类。皇家统计学会杂志：C系列（应用统计），60（3），377–395。

-Gertheiss，J.和Tutz，G.（2009a）。带序预测因子的惩罚回归。国际统计评论，77（3），345–365。取自http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf。

-Gertheiss，J.和Tutz，G.（2009b）。在基于质谱的蛋白质组学分析中通过分块增强进行有监督的功能选择。生物信息学，25（8），1076–1077。

-Gertheiss，J.和Tutz，G.（2009c）。可变缩放和最近邻方法。化学计量杂志，23（3），149–151。-Gertheiss，J.和Tutz，G.（2010）。分类解释变量的稀疏建模。
《应用统计年鉴》，第4卷，2150年至2180年。

-Hofner，B.，Hothorn，T.，Kneib，T.，＆Schmid，M.（2011）。基于Boosting的无偏模型选择框架。计算与图形统计杂志，20（4），956–971。取自http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf。

-Oelker，M.-R.，Gertheiss，J.和Tutz，G.（2012年）。在广义线性模型中使用分类预测变量和效果修正量进行正则化和模型选择。统计局：技术报告，第122号。取自http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf。

-Oelker，M.-R.和Tutz，G.（2013）。在广义结构化模型中将不同类型的惩罚相结合的一般惩罚族。统计部：技术报告，第139号。取自http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf。

-Petry，S.，Flexeder，C.，＆Tutz，G.（2011）。成对融合的套索。统计部：技术报告，第102号。取自http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf。

-Rufibach，K.（2010）。一种主动集算法，用于估计具有有序预测变量的广义线性模型中的参数。计算统计与数据分析，54（6），1442–1456。取自http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail。

-Tutz，G.（2011年10月）。分类数据的正则化方法。慕尼黑：路德维希·马克西米利安斯大学。取自http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf。

-Tutz，G.和Gertheiss，J.（2013年）。将等级作为预测指标-等级水平的老问题和一些答案。Psychometrika，1-20。}

— 尼克·斯陶纳
source

15

当有多个预测变量，并且感兴趣的预测变量为序数时，通常很难决定如何对变量进行编码。将其编码为分类将丢失顺序信息，而将其编码为数字则会对有序类别的效果产生线性影响，而线性可能与它们的真实效果相去甚远。对于前者，已提出等张回归作为解决非单调性的一种方法，但它是一种数据驱动的模型选择过程，与许多其他数据驱动的过程一样，它需要仔细评估最终拟合模型及其重要性其参数。对于后者，样条曲线可能会部分缓解刚性线性假设，但仍必须将数字分配给有序类别，并且结果对这些选择很敏感。在我们的论文中（Li和Shepherd，2010年，导言，第3-5段），

$Y$ $X$ $\bf Z$ $Y$ $\bf Z$ $X$ $\bf Z$ $Y$ $X$

$X$ $\bf Z$

我们已经开发了R包PResiduals，可从CRAN获得。该软件包包含用于执行我们针对线性和有序结果类型的方法的函数。我们正在努力添加其他结果类型（例如计数）和功能（例如允许交互）。该软件包还包含用于为各种回归模型计算残差的函数，该残差是概率尺度的残差。

参考文献

Li C.＆Shepherd，BE（2010）。调整协变量时测试两个序数变量之间的关联。JASA，105，612–620。

Li C.＆Shepherd，BE（2012）。序数结果的新残差。Biometrika 99，473–480。

— 李春
source

7

通常，关于序数变量是因变量的文献很多，很少使用它们作为预测变量。在统计实践中，通常将它们假定为连续的或分类的。您可以通过检查残差来检查将预测变量作为连续变量的线性模型看起来是否合适。

它们有时也被累积编码。一个示例是级别为1,2和3的序数变量x1对于x1> 1具有虚拟二进制变量d1，对于x1> 2具有虚拟二进制变量d2。则d1的系数是将序数从2增加到3时获得的效果，而d2的系数是将序数从2增大到3时获得的效果。

这通常使解释更容易，但等同于出于实际目的将其用作分类变量。

盖尔曼甚至建议，可以将有序预测变量既用作分类因子（对于主效应），又用作连续变量（对于交互作用），以增加模型的灵活性。

我的个人策略通常是看是否将它们视为连续是有意义的，并得出合理的模型，并且仅在必要时才将其用作分类。

— 埃里克
source