我可以忽略线性模型中非重要因素水平的系数吗?


15

在这里寻求关于线性模型系数的澄清之后我有一个关于因子水平系数的非有效值(高p值)的后续问题。

示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别?

更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?


2
好吧,这样做可能会导致有偏见的推论-例如,如果要形成预测间隔,则对于7个无关紧要的水平中的任何一个,覆盖率可能都是错误的。
2012年

1
您在这里已经获得了一些不错的答案,但是您可能还对为什么删除具有高p值的因子不合适的原因感兴趣。值得指出的是,从逻辑上讲,这等效于自动模型选择过程,即使您是自己进行而不是由计算机来完成。通读此问题及其提供的答案可以帮助您了解为什么这些事情是对的。
gung-恢复莫妮卡

1
此Q与2012年11月完全相同: stats.stackexchange.com/questions/18745/…。那里也有一些发人深省的信息。
rolando2 2012年

2
这是一个非常重要的问题,但尚无答案支持理论。就目前而言,它们只是意见。甚至连一个答案(结论与其他答案都不同)中的书都没有提供参考。在这种情况下,我不信任任何人,因此宁愿什么也不做(即保留所有类别/因素)。
luchonacho

Answers:


13

如果要输入具有多个级别的预测变量,则要么输入变量,要么不输入变量,则无法选择级别。您可能希望重组预测变量的级别以减少级别的数量(如果这在您的分析上下文中有意义)。但是,我不确定这是否会导致某种类型的统计无效。崩溃的水平,因为您看到它们并不重要。

同样,仅需注意,您说小的无关紧要。我假设您的意思是小值很重要,即:.0001 的值很重要,因此您拒绝null(假设级别?)。 pppα>.0001


(更正了我的p值错误)。因此,折叠级别是合理的,但前提是它是基于研究背景中合理的一些现实世界和逻辑原因(也可能会在有意义的突破时将它们解析出来),而不是仅仅根据它们的重要性任意地将它们混为一谈。得到它了。
Trees4theForest 2012年

15

@Ellie的回应很好。

如果要输入具有多个级别的变量,则需要在分析中保留所有这些级别。根据显着性水平进行选择和选择都将使您的结果产生偏差,并对推理做出非常奇怪的事情,即使通过某些奇迹,您的估算仍保持不变,因为您会在不同水平的估算结果上留有空白变量。

我会考虑以图形方式查看您对每个预测变量级别的估计。您在上升时是否看到趋势,还是不稳定?

一般而言,我也反对基于统计测试或纯粹基于统计时刻对变量进行重新编码。变量中的划分应该基于更牢固的东西-逻辑上有意义的切入点,特定转换点上的字段兴趣等。


8

扩展您已经获得的两个好答案,让我们实质性地看一下。假设您的因变量是(例如)收入,而您的自变量是(例如)种族,其水平根据普查定义(白人,黑人/非洲裔,美国印第安人/阿拉斯加土著,亚裔,夏威夷土著/太平洋岛民,其他和多种族)。假设您以白色作为参考类别对它进行了虚拟编码,然后得到

Income=b0+b1BAA+b2AIAN+b3AS+b4NHPI+b5O+b6MR

如果您在纽约市进行这项研究,则可能会得到很少的夏威夷原住民/太平洋岛民。您可能决定将它们(如果有的话)包括在其他文件中。但是,您不能使用完整的方程式,而不能包含该系数。这样,截距将是错误的,收入的任何预测值也将是错误的。

但是,您应该如何组合类别?

正如其他人所说,这是有道理的


4

提出不同的意见:为什么不将其包括为随机效应?那应该惩罚那些支撑力较弱的水平,并确保其影响力最小。这样,您可以将它们全部保留下来,而不必担心获得愚蠢的预测。

是的,这是从贝叶斯随机效应的观点出发,而不是从整个“所有可能水平的样本”的随机效应观点出发。


0

我还想知道是否可以将非重要类别与参考类别结合在一起。书中的以下陈述“ Gaming Shmueli,Nitin R. Patel,Peter C. Bruce撰写的第二版,带有XLMiner®的Microsoft OfficeExcel®中的Microsoft OfficeExcel®中的概念,技术和应用程序”,p87-89(尺寸减少部分)(Google搜索结果)似乎支持@Ellie回应的第二句话:

  • “拟合的回归模型还可以用于进一步组合相似的类别:系数不具有统计显着性(即p值较高)的类别可以与参考类别合并,因为它们与参考类别的区别似乎不存在对输出变量有重大影响”
  • “具有相似系数值(和相同符号)的类别通常可以合并,因为它们对输出变量的影响相似”

但是,我计划与主题专家一起检查组合类别是否合乎逻辑(如先前的答案/评论所暗示,例如@ Fomite,@ gung)。


此答案与此处的其他答案相矛盾。
kjetil b halvorsen
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.