预测建模-我们是否应该关注混合建模?


19

对于预测建模,我们是否需要关注统计概念,例如随机效应和观测值的非独立性(重复测量)?例如....

我有5个直接邮件广告系列(一年中发生)的数据,这些数据具有各种属性和购买标记。理想情况下,我会结合使用所有这些数据来为广告系列制定时给定的客户属性建立购买模型。原因是购买事件很少见,我想使用尽可能多的信息。给定的客户有可能出现在1至5个广告系列中的任何位置-这意味着记录之间没有独立性。

使用时是否重要?

1)机器学习方法(例如,树,MLP,SVM)

2)统计方法(逻辑回归)?

**ADD:**

我对预测建模的想法是,如果模型有效,请使用它。因此,我从未真正考虑过假设的重要性。考虑到我上面描述的情况,我很纳闷。

采取机器学习算法,例如MLP and SVM。这些已成功用于对二进制事件进行建模,例如上面的示例,而且还对时间序列数据进行了清晰的关联。然而,许多使用损失函数是似然的,并假设误差为id。例如,R中的梯度增强树gbm使用从二项式(第10页)得出的偏差损失函数。


1
对于假定记录之间具有独立性的统计方法而言,这很重要,因为您随后要处理重复的度量。
米歇尔

4
在我看来,专注于预测的机器学习与专注于推理的统计之间的主要区别之一就是您所说的B_Miner。机器学习更关注什么有效,而传统统计尤其关注假设。在这两种情况下,您都需要了解方法的假设/属性,然后做出明智的决定,无论它们是否重要。如果您不了解该方法的假设/属性,则可能会在预测模型中自欺欺人。
Anne Z. 2012年

2
@AnneZ。如果您在预测建模中遵循建议的训练集,测试集和验证集(所有样本足够大)的验证方法,并且发现了行之有效的方法,那么如果满足基本假设,您是否还会感到不便?我当然不建议ML盲目的应用,我只是想知道...
steffen 2012年

2
在这种情况下,“统计模型:两种文化”一文可能很有趣,在第三个交叉验证期刊俱乐部
steffen 2012年

Answers:


14

我自己一直在想这个问题,这是我的初步结论。如果有人可以用他们的知识和有关此主题的任何参考资料来补充/纠正此问题,我将非常高兴。

如果您想通过检查统计显着性来检验关于逻辑回归系数的假设,则需要对各个观测值之间的相关性进行建模(或者对非独立性进行校正),因为否则,您的标准误差将太小,至少在考虑以下情况时:集群效应。但是,即使有相关的观测值,回归系数也没有偏见,因此使用这种模型进行预测应该很好。

在预测建模中,无论您是使用逻辑回归还是其他方法,在训练模型时都不需要显式说明相关性。但是,如果要使用保留集进行验证或计算样本外误差,则需要确保每个人的观察结果仅出现在一组中,无论是训练还是验证,都不能同时出现。否则,您的模型将为已经有一些信息的个人预测,并且您不会真正了解样本外分类能力。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.