在线,可扩展的统计方法


12

这受到高效在线线性回归的启发,我发现这非常有趣。是否有专门用于大规模统计计算的文本或资源,通过这些文本或资源进行的数据集计算过大而无法放入主存储器中,并且可能变化太多而无法有效地进行子采样。例如,是否可以在线方式拟合混合效果模型?有没有人研究过用一阶SGD型技术替换MLE的标准二阶优化技术的效果?


我认为答案是“是”。当然,这里存在一些定义问题。一个人认为“大规模”的东西有时与另一个人大不相同。我的印象是,例如,许多学术研究人员将Netflix数据集视为“大规模”,而在许多工业环境中,它将被视为“微不足道”。至于通常具有非常大数据的估计技术,计算效率胜过统计效率。例如,在许多情况下,矩量法将在这些设置下(几乎)与MLE一样执行,并且计算起来会容易得多
主教

2
您还可以查看有关现代海量数据集(MMDS)算法的研讨会。它虽然很年轻,但是在统计学,工程学和计算机科学以及学术界和工业界的界面上吸引了相当多的演讲者。
主教

由于大多数数据集太大而无法容纳主存,仅几十年了,早期统计程序中使用的算法选择就反映了这一点。但是,此类程序没有用于混合效果模型的工具。
一站式

您是否可以计算数据集的统计信息?举例来说,数据项的总和还是平均值?
概率

Answers:


5

您可能会研究Yahoo!的John Langford 的Vowpal Wabbit项目。研究。它是在线学习器,对一些损失函数进行专门的梯度下降。大众汽车具有一些杀手features的功能:

  • 使用“ sudo apt-get install vowpal-wabbit”轻松地在Ubuntu上安装。
  • 使用散列技巧来处理非常大的特征空间。
  • 功能特定的自适应权重。
  • 最重要的是,有一个活动的邮件列表和社区插入了该项目。

Bianchi&Lugosi的《预测,学习和游戏》为在线学习提供了坚实的理论基础。大量阅读,但值得!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.