是否有用于训练统计模型的“足够”数据的概念?


10

我从事很多统计建模工作,例如隐马尔可夫模型和高斯混合模型。我看到在每种情况下训练好的模型都需要大量的数据(对于HMM来说> 20000句子),这些数据是从与最终使用类似的环境中获取的。我的问题是:

  1. 文献中是否有“足够的”训练数据的概念?多少训练数据“足够好”?
  2. 如何计算要训练的“良好”(识别准确率高(> 80%)的模型)需要多少个句子?
  3. 我如何知道模型是否经过正确训练?模型中的系数会开始出现随机波动吗?如果是这样,我该如何区分由于模型更新而引起的随机波动和实际变化?

如果需要更多标签,请随时重新标记该问题。

Answers:


10

您可以将数据集切成具有10%,20%,30%,...,100%数据的连续子集,并使用k倍交叉验证或自举对每个子集估计估计器精度的方差。如果您有“足够”的数据,则在绘制方差时应显示一条递减的单调线,该线应在100%之前达到平稳状态:添加更多数据不会以任何明显的方式降低估计量精度的方差。


我将不得不尝试。听起来不错。谢谢!
斯里拉姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.