1
两个世界碰撞:使用ML处理复杂的调查数据
我似乎很容易遇到问题,但是好几个星期以来我一直没有找到合适的解决方案。 我有很多民意测验/调查数据(成千上万的受访者,说每个数据集为5万),这些数据我希望将其称为复杂设计的调查,包括权重,分层,特定路由等。对于每个受访者,都有数百个变量,例如人口统计(年龄,地区...),然后是二进制变量(最多是分类变量)。 我更多地来自计算机科学/机器学习背景,我必须学习很多有关经典调查统计数据和方法的知识。现在,我想将经典机器学习应用于这些数据(例如,预测受访者子集的某些缺失值-基本上是分类任务)。但是,等等,我找不到合适的方法来做到这一点。我应该如何合并这些层次,权重或路由(例如:如果问题1回答了选项2,请问问题3,否则跳过它)? 简单地应用我的模型(树,逻辑回归,SVM,XGBoost ...)似乎很危险(并且在大多数情况下它们会失败),因为它们通常假定数据来自简单的随机样本或iid。 许多方法至少都具有权重,但并没有太大帮助。此外,不清楚如何将不平衡的类和调查定义所给出的权重结合在一起,而不是讨论那些分层的东西。此外,结果模型应进行良好的校准-预测的分布应与原始模型非常接近。预测的良好性能并不是这里的唯一标准。我还更改了优化指标,以考虑到这一点(例如预测分布与真实分布的距离 +准确度/ MCC),并且在某些情况下有所帮助,为什么会破坏其他性能。 有什么规范的方法可以解决这个问题吗?对我来说,这似乎是一个严重未被重视的领域。IMO的许多调查都可以从ML的功能中受益,但没有消息来源。像这些一样,是两个彼此不相互作用的世界。 到目前为止,我发现了什么: http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/ 例如,当您的数据来自复杂的样本调查时,我仍然只知道一篇关于如何进行回归树的论文(Toth&Eltinge,2011)。 http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine 在最近对150份采样研究论文的荟萃分析中,分析了具有复杂采样设计的多项调查,发现由于无知或对复杂样品设计特征的不正确使用而导致的分析错误非常频繁。 https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf 相关的简历问题,但没有一个包含如何解决这个问题的可用答案(要么为否,不是我所要的,要么提出具有误导性的建议): 与复杂调查数据进行匹配分析 带有加权/复杂调查数据的机器学习 复杂调查数据中LASSO之后的交叉验证 复杂调查中逻辑回归的分离? 将多级模型拟合到R中的复杂测量数据