合并/减少序数或名义数据类别的方法?


14

我正在努力寻找一种方法来减少名义或有序数据中的类别数量。

例如,假设我要在具有多个名义和有序因素的数据集上构建回归模型。尽管此步骤没有问题,但我经常遇到这样的情况:名义特征在训练集中没有观测值,但随后存在于验证数据集中。当模型出现(到目前为止)看不见的情况时,这自然会导致错误。我想要合并类别的另一种情况是,当类别过多而观察不到时。

所以我的问题是:

  • 虽然我认识到最好根据它们代表的先前真实世界的背景信息来组合许多名义(和次序)类别,但是否有系统的方法(R最好是软件包)可用?
  • 您将针对阈值等提出什么指导和建议?
  • 文学中最受欢迎的解决方案是什么?
  • 除了将较小的名义类别合并为新的“ OTHERS”类别之外,还有其他策略吗?

如果您还有其他建议,请随时输入。


Answers:


11

这是对第二个问题的回答。

我怀疑对这类决定的正确方法将很大程度上取决于纪律规范和工作对象的期望。作为一名社会科学家,我经常处理调查(或类似调查)的数据,当我折叠序数标度或分类变量时,我总是试图在实体逻辑和数据驱动逻辑之间取得平衡。换句话说,在折叠这些项目之前,我会尽力考虑这些项目的组合在本质上以及响应的分布方面“挂在一起”。

这是一个涉及五点频率范围的特定(常规)调查问题的最新示例:

您多久参加一次社区中某个俱乐部或组织的会议?

  • 决不
  • 一年几次
  • 每月一次
  • 一个月几次
  • 每周一次或更多次

我目前没有可用的数据,但结果严重偏向规模的“永不”端。结果,我和我的合著者选择将回答归为两类:“每月一次或更多”和“每月少于一次”。由此产生的(二进制)变量分布更均匀,并且在实践上反映出有意义的区别:由于许多俱乐部和组织每月开会不超过一次,因此有充分的理由相信至少参加会议的人经常此类团体中的“活跃”成员,而参加频率较低(或从未参加过)的人则是“非活跃”。

因此,以我的经验来看,这些决定至少与艺术一样重要。就是说,我通常也尝试在拟合任何模型之前执行此操作,因为我从事的学科是(否定的)其他任何事物都被视为数据挖掘和高度不科学的(有趣的时代!)。

考虑到这一点,如果您能多说一点有关此作品的受众群体,可能会有所帮助。复习您所在领域的一些杰出的方法学教科书也是您的最大利益,因为它们通常可以阐明给定研究社区中“正常”行为的成因。


5

ashaw讨论的各种方法可以导致相对更系统的方法。但是我也认为系统地表示算法。在这里,数据挖掘工具可能会填补空白。首先,SPSS的决策树模块中内置了卡方自动交互检测(CHAID)程序;根据用户设置的规则,当结果变量在结果变量上显示相似的值时(无论是连续的还是名义的),它可以折叠预测变量的序数或名义类别。这些规则可能取决于要折叠或通过折叠创建的组的大小,或者取决于p-相关统计检验的值。我相信某些分类和回归树(CART)程序可以做同样的事情。其他受访者应该能够谈论由神经网络或通过各种数据挖掘程序包提供的其他应用程序执行的类似功能。


好点,@ rolando-由于原始帖子涉及培训和验证数据集,我怀疑您的回复实际上对于@Figaro可能更有用。
ashaw'3

谢谢你们的宝贵意见。@ rolando2您对我模棱两可的措辞的正确理解是我追求的方向。
费加罗报
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.