Answers:
流挖掘是一个答案。也称为:
大规模在线学习
而不是将所有数据集存储在内存中并从中进行训练。他们将其块放入内存中,并从这些块流中训练分类器/集群。请参阅以下链接。
来自维基百科的Data_stream_mining。
MOA:大规模在线分析
斯坦福大学,《海量数据集的挖掘》。它使用MapReduce作为工具。
videolectures.net中的视频。搜索该站点中存在类似的视频。
不仅可以使用一个子集,还可以像微型批量学习中那样使用多个子集(例如,随机梯度下降)。这样,您仍将使用所有数据。
像打包或混合之类的集合体-不会浪费任何数据,问题会自动变得微不足道,并且可能会显着提高准确性/稳健性。