在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。
示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别?
更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?
在这里寻求关于线性模型系数的澄清之后,我有一个关于因子水平系数的非有效值(高p值)的后续问题。
示例:如果我的线性模型包含一个具有10个水平的因子,并且其中只有3个水平具有与之相关的显着p值,那么当使用该模型预测Y时,如果受试者属于以下情况之一,我可以选择不包括系数项:非重要级别?
更彻底地讲,将7个不重要的级别合并为一个级别并重新分析是错误的吗?
Answers:
如果要输入具有多个级别的预测变量,则要么输入变量,要么不输入变量,则无法选择级别。您可能希望重组预测变量的级别以减少级别的数量(如果这在您的分析上下文中有意义)。但是,我不确定这是否会导致某种类型的统计无效。崩溃的水平,因为您看到它们并不重要。
同样,仅需注意,您说小的无关紧要。我假设您的意思是小值很重要,即:.0001 的值很重要,因此您拒绝null(假设级别?)。
扩展您已经获得的两个好答案,让我们实质性地看一下。假设您的因变量是(例如)收入,而您的自变量是(例如)种族,其水平根据普查定义(白人,黑人/非洲裔,美国印第安人/阿拉斯加土著,亚裔,夏威夷土著/太平洋岛民,其他和多种族)。假设您以白色作为参考类别对它进行了虚拟编码,然后得到
如果您在纽约市进行这项研究,则可能会得到很少的夏威夷原住民/太平洋岛民。您可能决定将它们(如果有的话)包括在其他文件中。但是,您不能使用完整的方程式,而不能包含该系数。这样,截距将是错误的,收入的任何预测值也将是错误的。
但是,您应该如何组合类别?
正如其他人所说,这是有道理的。
我还想知道是否可以将非重要类别与参考类别结合在一起。书中的以下陈述“ Gaming Shmueli,Nitin R. Patel,Peter C. Bruce撰写的第二版,带有XLMiner®的Microsoft OfficeExcel®中的Microsoft OfficeExcel®中的概念,技术和应用程序”,p87-89(尺寸减少部分)(Google搜索结果)似乎支持@Ellie回应的第二句话:
但是,我计划与主题专家一起检查组合类别是否合乎逻辑(如先前的答案/评论所暗示,例如@ Fomite,@ gung)。