如何为R中的最新观测值分配更多权重?
我认为这是一个常见的问题或愿望,但是我很难弄清楚该如何实现。我试图对此进行大量搜索,但是我找不到一个很好的实际例子。
在我的示例中,随着时间的推移,我将拥有一个大型数据集。我想说的是对最近的数据行进行某种指数加权。因此,我将具有某种指数函数,即2015年的观测值对训练模型比_2012年的观测值更重要。
我的数据集变量包含分类值和数字值的混合,而我的目标是一个数值-如果重要的话。
我想使用GBM / Random Forest等模型进行测试/尝试,最好在CARET软件包中进行测试。
更新问题
我很欣赏下面给出的关于如何按两点之间的日期距离以指数方式衰减权重的响应。
但是,当涉及到在插入符号中训练此模型时,权重因素又如何精确计算呢?每个训练行中的权重值是将来某个点与该点历史发生之间的距离。
权重是否仅在预测期间起作用?因为如果它们在训练过程中发挥作用,那会不会引起各种问题,因为各种交叉折叠的权重都不同,试图预测可能早于它的某个时间点?