带回家的消息:
不幸的是,您引用的文本在方法1和2之间改变了两件事:
- 方法2执行交叉验证和数据驱动的模型选择/调整/优化
- 方法1既不使用交叉验证,也不使用数据驱动的模型选择/调整/优化。
- 在此处讨论的上下文中,无需数据驱动的模型选择/调整/优化的方法3交叉验证是完全可行的(恕我直言,恕不另行通知)
- 方法4,没有交叉验证,但是数据驱动的模型选择/调整/优化也是可能的,但是构造起来更复杂。
恕我直言,交叉验证和数据驱动的优化是设置建模策略时的两个完全不同(且在很大程度上是独立的)决策。该唯一的连接,您可以使用交叉验证估计为目标的功能为您的优化。但是还有其他可用的目标功能,以及交叉验证估计的其他用途(重要的是,您可以将它们用于模型验证,aka验证或测试)
不幸的是,机器学习术语目前是恕我直言的一团糟,这表明这里存在错误的连接/原因/依赖性。
当您查找方法3(不是为了优化而是为了测量模型性能而使用交叉验证)时,您会发现“决策”交叉验证与对整个数据集的训练在这种情况下是错误的二分法:使用交叉验证时为了衡量分类器的性能,将交叉验证的优值用作对在整个数据集上训练的模型的估计。即方法3包括方法1。
p模型的参数/系数,但是优化所做的是估计其他参数,即所谓的超参数。如果将模型拟合和优化/调整过程描述为对模型参数的搜索,那么这种超参数优化意味着需要考虑更大的搜索空间。换句话说,在方法1(和3)中,您通过指定那些超参数来限制搜索空间。您的真实世界数据集可能足够大(包含足够的信息)以允许在受限搜索空间内进行拟合,但又不足以在方法2(和4)的较大搜索空间中充分良好地固定所有参数。
实际上,在我的领域中,我经常不得不处理太小的数据集,以至于无法考虑数据驱动的优化。因此,我该怎么办:我使用有关数据和数据生成过程的领域知识来确定哪种模型与数据和应用程序的物理性质完全匹配。在这些之中,我仍然必须限制模型的复杂性。