我最近一直在处理大型数据集,并发现了许多有关流方法的论文。仅举几例:
- 遵循规范的领导者和镜像后裔:等价定理和L1正则化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf)
- 流式学习:一次通过SVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf)
- Pegasos:用于SVM的原始估计子GrAdient求解器http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- 还是在这里:SVM可以一次进行流学习一个示例吗?
- 流随机森林(http://research.cs.queensu.ca/home/cords2/ideas07.pdf)
但是,我无法找到有关它们之间如何比较的任何文档。我读过的每篇文章似乎都针对不同的数据集进行了实验。
我知道sofia-ml,vowpal wabbit,但与大量现有方法相比,它们似乎执行的方法很少!
不太常见的算法性能不够吗?是否有任何论文试图复习尽可能多的方法?
7
如果没有,您应该自己写下:)
—
Chris C
您确实了解到,学术界人士必须撰写论文/提出新算法,然后他们将搜索算法在其上表现最佳的数据集。我建议您只确保您了解vowpal-wabbit之类的库的运行方式(即所有参数等)。
—
seanv507
事实恰恰相反!我了解人们选择了最佳数据集,并且通常对他们如何交叉验证算法(包括他们的方法和竞争方法)相对沉默。我要寻找的是jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
—
RUser4512
就像您链接的JMLR论文一样。我自己也不知道流算法的类似比较。可能是因为流媒体更适合小众市场,而且还因为虽然已经很难比较静态数据集的分类器,但是对流数据进行公平的比较更加复杂。
—
stats0007 '16
尽管这些方法并不能具体回答您的问题,但有两个相关资源:Gama等人的“ 评估可从数据流中学习的算法”,其中讨论了评估技术;以及MOA(大规模在线分析),该方法是结合了数据流挖掘的开源框架评估绩效的能力。
—
user77876