我从事机器学习和生物信息学研究已有一段时间了,今天我与一位同事就数据挖掘的主要一般问题进行了交谈。
我的同事(是机器学习专家)说,他认为,机器学习最重要的实践方面是如何理解您是否收集了足够的数据来训练机器学习模型。
这句话令我感到惊讶,因为我从未在这方面给予过如此重视。
然后,我在Internet上寻找了更多信息,并且根据经验,我在FastML.com上发现了这篇文章,根据您的经验,您需要的数据实例大约是功能的10倍。
两个问题:
1-这个问题在机器学习中真的特别重要吗?
2 - 是的10倍规则工作?这个主题还有其他相关资料吗?
1.是的 2.这是一个很好的基线,但是您可以通过正则化来解决它,以减少有效的自由度。这对于深度学习尤其有效。3.您可以通过针对误差或得分绘制样本量的学习曲线来诊断问题所在。
—
Emre
@Emre谢谢!您还可以建议我一些论文或任何材料阅读吗?
—
DavideChicco.it
通常,这将与教科书中的交叉验证和其他模型验证技术一起讨论。
—
Emre
如果可以实现10倍规则,那将是很好的选择,但在某些企业环境中这并不实际。在许多情况下,特征数量远大于数据实例(p >> n)。有专门设计用于应对这些情况的机器学习技术。
—
数据科学专家
如果您需要详细的说明来帮助您了解学习曲线图,请查看以下内容:scikit-yb.org/en/latest/api/model_selection/learning_curve.html
—
shrikanth singh