从庞大的数据集中学习的方法?


10

基本上,有两种学习大型数据集的常用方法(当您面临时间/空间限制时):

  1. 作弊:)-仅使用“可管理”子集进行训练。由于收益递减规律,准确性的损失可以忽略不计-模型的预测性能通常在将所有训练数据纳入模型之前就已经趋于平缓。
  2. 并行计算-将问题分解为较小的部分,并在单独的计算机/处理器上解决每个问题。虽然您需要算法的并行版本,但是好消息是,许多常见算法自然是并行的:最近邻居,决策树等。

还有其他方法吗?何时使用它们有什么经验法则吗?每种方法的缺点是什么?

Answers:


10

流挖掘是一个答案。也称为:


同意,MOA工具箱将是一个不错的起点
tdc 2012年

7

不仅可以使用一个子集,还可以像微型批量学习中那样使用多个子集(例如,随机梯度下降)。这样,您仍将使用所有数据。


啊哈,这很重要-我澄清了这个问题。我对您遇到时间/空间限制并且“负担不起”小批量学习的情况感兴趣。
andreister

1

像打包或混合之类的集合体-不会浪费任何数据,问题会自动变得微不足道,并且可能会显着提高准确性/稳健性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.