我建议您阅读有关分类数据分析的书籍(请参阅Alan Agresti的Categorical Data Analysis,2002年),以更好地解释和理解有序逻辑回归。这些书中的几章基本上回答了您提出的所有问题。如果你只关心R
相关的例子,扩展线性模型中的R由朱利安遥远(CRC出版社,2008)是一个很好的参考。
在我回答您的问题之前,有序逻辑回归是一种按类别排序的多项式logit模型。假设我们有排序类别,而对于单个,具有序数响应,对于,
。通过有序的响应,通常更容易使用累积概率。累积概率在增加,并且对于合并相邻类别而言是不变的。此外,,因此我们仅需要模型概率。我ÿ 我p 我Ĵ = P (ÿ 我= Ĵ )Ĵ = 1 ,。。。,Ĵ γ 我Ĵ = P (ÿ 我 ≤ Ĵ )γ 我Ĵ = 1JiYipij=P(Yi=j)j=1,...,Jγij=P(Yi≤j)γiJ=1J–1
现在我们想将链接到协变量。在你的情况下,有3个排序的级别:,,。将它们视为有序而不是无序是更有意义的。其余变量是您的协变量。您正在考虑的特定模型是比例赔率模型,并且在数学上等效于:γijxSat
low
medium
high
logit γj(xi)=θj−βTxi,j=1…J−1
where γj(xi)=P(Yi≤j|xi)
之所以这样称呼,是因为比较和的相对几率是:Y≤jx1x2
(γj(x1)1−γj(x1))/(γj(x2)1−γj(x2))=exp(−βT(x1−x2))
注意,以上表达式不依赖于。当然,对于给定的数据集,确实需要检查比例赔率的假设。j
现在,我将回答一些(1、2、4)个问题。
如何理解该模型是否合适?摘要(house.plr)显示残差3479.149和AIC(赤池信息准则?)3495.149。这样好吗 在那些仅用作相对度量(即与另一个模型拟合进行比较)的情况下,什么是好的绝对度量?剩余偏差是否近似卡方分布?能否对原始数据使用“正确预测的百分比”或进行一些交叉验证?最简单的方法是什么?
适合的模型polr
是特殊的glm
,因此glm
这里适用于所有传统假设的所有假设。如果妥善处理参数,则可以找出分布。具体来说,要测试模型是否良好,您可能需要进行拟合优度测试,该测试将测试以下null(注意这很微妙,大多数情况下您想拒绝null,但在这里您不想拒绝以使其非常适合):
Ho: current model is good enough
您将为此使用卡方检验。p值为:
1-pchisq(deviance(house.plr),df.residual(house.plr))
大多数时候,您希望获得一个大于0.05的p值,以免您不拒绝该null来得出该模型很好的结论(此处忽略了哲学上的正确性)。
在您不希望拥有大量参数的同时,AIC应该很高以达到良好的匹配度。stepAIC
是检查此问题的好方法。
是的,您绝对可以使用交叉验证来查看预测是否成立。参见predict
功能(选件:type = "probs"
)的?polr
。您需要照顾的只是协变量。
pr包含哪些信息?配置文件上的帮助页面是通用的,不提供有关polr的指导
如@chl等指出的,pr
包含获取CI所需的所有信息以及的其他与可能性相关的信息polr fit
。glm
使用对数似然的迭代加权最小二乘估计方法对所有s进行拟合。在此优化中,您将获得大量信息(请参阅参考资料),这些信息将用于计算方差协方差矩阵,CI,t值等。它包括所有这些信息。
如何解释每个系数的t值?与某些模型>拟合不同,此处没有P值。
与正常线性模型(特殊glm
)不同,其他glm
s的回归系数没有很好的t分布。因此,您可以使用最大似然理论获得参数估计及其渐近方差协方差矩阵。因此:
Variance(β^)=(XTWX)−1ϕ^
估计值除以其标准误差就是BDR和WV所谓的t值(我在MASS
这里假设是常规的)。它等效于正态线性回归的t值,但不遵循t分布。使用CLT,它渐近正态分布。但是他们宁愿不使用这个近似值(我想),因此没有p值。(我希望我没有错,如果我错了,我希望BDR不在这个论坛上。我进一步希望,如果我错了,有人会纠正我。)
methods("profile")
会为您提供与Rprofile
对象关联的(在这种情况下为S3)方法,然后您会看到有一个专用的polr
结果方法,您可以浏览通过getAnywhere("profile.polr")
在R提示符下键入在线。