10 我从事很多统计建模工作,例如隐马尔可夫模型和高斯混合模型。我看到在每种情况下训练好的模型都需要大量的数据(对于HMM来说> 20000句子),这些数据是从与最终使用类似的环境中获取的。我的问题是: 文献中是否有“足够的”训练数据的概念?多少训练数据“足够好”? 如何计算要训练的“良好”(识别准确率高(> 80%)的模型)需要多少个句子? 我如何知道模型是否经过正确训练?模型中的系数会开始出现随机波动吗?如果是这样,我该如何区分由于模型更新而引起的随机波动和实际变化? 如果需要更多标签,请随时重新标记该问题。 modeling hidden-markov-model gaussian-mixture — 斯里拉姆 source
10 您可以将数据集切成具有10%,20%,30%,...,100%数据的连续子集,并使用k倍交叉验证或自举对每个子集估计估计器精度的方差。如果您有“足够”的数据,则在绘制方差时应显示一条递减的单调线,该线应在100%之前达到平稳状态:添加更多数据不会以任何明显的方式降低估计量精度的方差。 — 奥格里塞尔 source 我将不得不尝试。听起来不错。谢谢! — 斯里拉姆