处理定期增加的功能集

10

我正在研究欺诈检测系统。在此领域中，经常会出现新的欺诈行为，因此必须不断向模型中添加新功能。

我想知道（从开发过程的角度来看）处理它的最佳方法是什么？仅将新特征添加到特征向量中并重新训练分类器似乎是一种幼稚的方法，因为将花费太多时间来重新学习旧特征。

我正在考虑为每个功能（或几个相关功能）训练一个分类器，然后将这些分类器的结果与一个整体分类器组合在一起。这种方法有什么缺点吗？如何为整体分类器选择算法？

machine-learning bigdata

— 马克西姆·弗里登塔尔（Maxim Fridental）
source

4

在理想的世界中，您将保留所有历史数据，并确实使用从历史数据追溯提取的新功能来运行新模型。我认为花在此上的计算资源实际上是非常有用的。真的有问题吗？

是的，它是建立分类器集合并组合其结果的一种广泛接受的技术。您可以仅基于新功能并行构建新模型，并对其预测取平均值。这应该会增加价值，但是，您永远不会以这种方式捕获新功能和旧功能之间的交互，因为它们永远不会一起出现在分类器中。

— 肖恩·欧文（Sean Owen）
source

2

这里有一个想法，只是突然蓝色的了-如果你做什么用的随机子空间采样（如其实肖恩·欧文已经建议）每次训练一组新的分类一项新功能出现（使用随机特征子集，包括新功能集）。您也可以在样本子集上训练这些模型，以节省一些训练时间。

这样，您可以让新的分类器同时具有新功能和旧功能，同时保留旧的分类器。您甚至甚至可以使用交叉验证技术来衡量每个分类器的性能，从而能够在一段时间后消除性能最差的分类器，从而避免模型过大。

— 系统
source

0

您描述的内容属于机器学习中的概念漂移类别。您可以在本摘要文件中找到有趣且可行的想法，并在这些幻灯片中找到可能的方法的分类。

— 达米安弗朗索瓦
source