对于预测建模,我们是否需要关注统计概念,例如随机效应和观测值的非独立性(重复测量)?例如....
我有5个直接邮件广告系列(一年中发生)的数据,这些数据具有各种属性和购买标记。理想情况下,我会结合使用所有这些数据来为广告系列制定时给定的客户属性建立购买模型。原因是购买事件很少见,我想使用尽可能多的信息。给定的客户有可能出现在1至5个广告系列中的任何位置-这意味着记录之间没有独立性。
使用时是否重要?
1)机器学习方法(例如,树,MLP,SVM)
2)统计方法(逻辑回归)?
**ADD:**
我对预测建模的想法是,如果模型有效,请使用它。因此,我从未真正考虑过假设的重要性。考虑到我上面描述的情况,我很纳闷。
采取机器学习算法,例如MLP and SVM
。这些已成功用于对二进制事件进行建模,例如上面的示例,而且还对时间序列数据进行了清晰的关联。然而,许多使用损失函数是似然的,并假设误差为id。例如,R中的梯度增强树gbm
使用从二项式(第10页)得出的偏差损失函数。