常见的基于数据的变量选择过程(例如,向前,向后,逐步,所有子集)倾向于产生具有不良特性的模型,包括:
- 系数偏离零。
- 标准误差太小,置信区间太窄。
- 测试不具有广告含义的统计信息和p值。
- 对模型拟合的估计过于乐观。
- 可能无意义的包含术语(例如,排除低阶术语)。
但是,变量选择过程仍然存在。考虑到变量选择的问题,为什么需要这些程序?是什么促使他们使用它?
一些提议开始讨论。
- 是否希望获得可解释的回归系数?(在具有多个IV的模型中被误导了吗?)
- 消除不相关变量引入的方差?
- 在自变量中消除不必要的协方差/冗余吗?
- 减少参数估计的数量(功效,样本量)
还有其他吗?变量选择技术所解决的问题是否比变量选择程序所引入的问题重要?什么时候应该使用它们?什么时候不应该使用它们?