我正在努力寻找一种方法来减少名义或有序数据中的类别数量。
例如,假设我要在具有多个名义和有序因素的数据集上构建回归模型。尽管此步骤没有问题,但我经常遇到这样的情况:名义特征在训练集中没有观测值,但随后存在于验证数据集中。当模型出现(到目前为止)看不见的情况时,这自然会导致错误。我想要合并类别的另一种情况是,当类别过多而观察不到时。
所以我的问题是:
- 虽然我认识到最好根据它们代表的先前真实世界的背景信息来组合许多名义(和次序)类别,但是否有系统的方法(
R
最好是软件包)可用? - 您将针对阈值等提出什么指导和建议?
- 文学中最受欢迎的解决方案是什么?
- 除了将较小的名义类别合并为新的“ OTHERS”类别之外,还有其他策略吗?
如果您还有其他建议,请随时输入。