我正在使用随机森林训练一个分类模型,以区分6个类别。我的交易数据大约有6万多个观察值和35个变量。这是一个大致的示例。
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
创建模型后,我想对过去几周的观察结果进行评分。随着系统的变化,最近的观察将与我希望预测的当前观察的环境更加相似。因此,我想创建一个权重变量,以便“随机森林”将对最近的观察结果更加重视。
有谁知道R中的randomForest包是否能够处理每个观察值的权重?
另外,能否请您提出一种创建权重变量的好方法?例如,由于我的数据来自2013年,所以我一直认为可以将日期中的月份数作为权重。有人看到这种方法有问题吗?
提前谢谢了!