术语“最佳匹配”和交叉验证中使用的“最佳”的定义是什么？

16

如果将非线性函数拟合到一组点（假设每个横坐标只有一个纵坐标），则结果可以是：

残差很小的非常复杂的函数
具有大量残差的非常简单的函数

交叉验证通常用于在这两个极端之间找到“最佳”折衷方案。但是“最佳”是什么意思？是“最有可能”吗？您甚至将如何证明最可能的解决方案是什么？

我内心的声音告诉我，简历正在寻找某种最低限度的能源解决方案。这让我想到了熵，我隐约知道它在统计和物理学中都会发生。

在我看来，“最佳”拟合是通过最小化复杂度和误差函数的总和而产生的，即

minimising m where m = c(Complexity) + e(Error)

这有意义吗？函数c和e是什么？

请您能用非数学语言来解释，因为我对数学不太了解。

model-selection cross-validation

— 巴特
source

1

最好的是具有最小的未来误差的模型，并且交叉验证可以为您提供该估计。使用c（Complexity）+ e（Error）公式的原因是因为您可以将训练数据上的错误用作未来错误的估计，但这过于乐观，因此您添加了一个术语以使该估计无偏，这通常是模型复杂性

— Yaroslav Bulatov

另一方面，根据龙格现象的推理（再次是物理学灵感）得出的结论是，未来的错误与复杂性/ Train_Error有关。

马特·克劳斯（Matt Krause）在以下类似问题上给出了出色的答案：stats.stackexchange.com/a/21925/14640 他的回答是这样的：目标是在模型的复杂性和模型的解释能力之间取得平衡，因此简约性的概念是一个更好的选择比最适合误差的概念衡量模型的适当性。这是因为高度复杂的模型可能会过度拟合数据，而无法更好地预测或解释新结果。

— 阿萨德·易卜拉欣2012年

6

我认为这是一个很好的问题。我将对其进行阶段化，以确保我做对了：

似乎有很多方法可以选择复杂度惩罚函数和错误惩罚函数。哪个选择是“最佳”。最好的意思是什么？ $c$ $e$

我认为答案（如果有的话）将使您超越交叉验证的范围。我喜欢这个问题（以及整个主题）与Occam的Razor和对科学至关重要的简约的一般概念如何紧密地联系在一起。我绝不是这个领域的专家，但是我发现这个问题非常有趣。在这类问题上，我所知道的最好的文章是Marcus Hutter撰写的《通用人工智能》（尽管不要问我任何问题，我还没有阅读大部分）。几年前，我参加了哈特（Hutter）的演讲，给我留下了深刻的印象。

您认为在某处存在一个最小熵参数是正确的（以某种方式用于复杂度惩罚函数）。Hutter提倡使用Kolmogorov复杂度代替熵。同样，哈特对“最佳”的定义（据我所记得）是（非正式地）最能预测未来的模型（即，最能预测未来将观察到的数据）。我不记得他是如何形式化这一概念的。 $c$

— 罗比·麦基利姆（Robby McKilliam）
source

你明白这个问题。我将点击链接。

— 巴特2010年

您应该知道，这些链接不太可能使您“实用”。如果您尝试使用交叉验证（或其他类型的模型选择）来构建某些东西，那么在实践中，它很可能总是归结为启发式和临时性的（尽管我同意这并不令人满意）。

— 罗比·麦基利姆

现在我们到了某个地方。en.wikipedia.org/wiki/Minimum_message_length似乎是我的想法。谢谢！

— 巴特2010年

别担心。这只是反思，不切实际。

— 巴特2010年

9

我将提供一个简短的直观答案（相当抽象的水平），直到其他人提供更好的答案为止：

首先，请注意，复杂的函数/模型可以更好地拟合（即残差较低），因为它们利用了数据集的某些局部特征（认为是噪声），而这些局部特征并未全局存在（认为是系统模式）。

其次，在执行交叉验证时，我们将数据分为两组：训练集和验证集。

因此，当我们执行交叉验证时，复杂的模型可能无法很好地预测，因为根据定义，复杂的模型将利用训练集的局部特征。但是，与验证集的局部特征相比，训练集的局部特征可能会非常不同，从而导致不良的预测性能。因此，我们倾向于选择一种可捕获训练和验证数据集全局特征的模型。

总之，交叉验证可通过选择捕获数据集全局模式的模型并避免使用数据集某些局部特征的模型来防止过度拟合。

@Srikant我知道这一切。简历是找到“最佳”的一种手段。best的解释是什么？

— 巴特2010年

@bart'最佳模型'=一种“最佳”模型捕获全局模式，同时避免数据的局部特征。对于非数学描述，这是我能做的最好的事情。也许，其他人可以详细说明或更加具体。

@bart：“最佳”表示最适合训练数据的功能，并且很好地“泛化”了验证/看不见的测试数据。我认为从Srikant的答案中可以很清楚地看出这一点。有很多方法可以正式定义良好的概括行为。从非正式的意义上讲，您可以将其视为找到“平滑的”函数并且不会太摇摆不定。尝试仅适合训练数据可能会导致功能摇摆不定，而平滑度通常会确保该功能在训练和验证/测试数据上都能表现良好。

— ebony1 2010年

@乌木：你错过了重点。我对问题进行了重新表述，希望可以使它更清楚

— 巴特

5

在一般的机器学习视图中，答案非常简单：我们希望构建一个模型，该模型在预测新数据时会具有最高的准确性（在训练过程中看不见）。因为我们不能直接测试（我们没有来自未来的数据），所以我们对这种测试进行了蒙特卡洛模拟-这基本上就是交叉验证下的想法。

关于准确度可能存在一些问题（例如，业务客户可以说，每单位超调成本为5欧元，每单位低于100欧元，因此，建立一个准确度较低但更不足的模型比较好），但通常是分类中真实答案的相当直观的百分比，并且在回归分析中被广泛使用的解释方差。

3

很多人都有很好的答案，这是我的$ 0.02。

从统计角度来看，有两种方法可以查看“最佳模型”或“模型选择”：

1解释尽可能简单，但不要更简单（Attrib。Einstein）

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research

2预测很重要，类似于工程开发。

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

广泛的（误）概念：

选择模型等同于选择最佳模型

为了进行解释，我们应该警惕可能存在几个（大致）同样好的解释模型。简单性有助于传达模型中包含的概念以及心理学家所说的泛化，即在与研究模型非常不同的情况下“工作”的能力。因此，在少数几个型号上存在溢价。

预测：（雷普利博士）的一个很好的类比是在专家意见之间进行选择：如果您可以访问大量专家小组，您将如何使用他们的意见？

交叉验证负责预测方面。有关简历的详细信息，请参阅BD Ripley博士的演讲博士的演示文稿Brian D. Ripley博士的模型选择演示文稿

引用：请注意，此答案中的所有内容均来自上述引用。我非常喜欢这个演讲，我也喜欢。其他意见可能会有所不同。演讲的标题是：“从大型模型中选择”，并由Brian D. Ripley博士在2004年3月29日至30日于帝国学院举行的纪念约翰·内尔德80岁生日的研讨会上发表。

— 孙酷
source

3

这里的讨论很棒，但是我认为交叉验证的方式与迄今为止的答案不同（我认为mbq和我在同一页上）。因此，我将投入两美分，以免使河水浑浊...

交叉验证是一种统计技术，用于评估由于采样误差导致的模型拟合和预测数据能力的变异性和偏差。因此，“最佳”将是提供最低泛化误差的模型，该误差将以可变性和偏差为单位。基于交叉验证工作的结果，可以使用诸如贝叶斯和Bootstrap模型平均等技术来以算法方式更新模型。

该常见问题解答提供了很好的信息，以更多地了解我的观点。

— 乔什·赫曼
source

1

误差函数是您的模型（函数）在训练数据上的误差。复杂度是您要学习的函数的某些范数（例如，平方2范数）。最小化复杂度术语实质上有利于平滑函数，这些函数不仅在训练数据上而且在测试数据上都很好。如果用一组系数表示函数（例如，如果要进行线性回归），则用平方范数惩罚复杂度会导致函数中的系数值较小（惩罚其他范数会导致复杂度控制的概念不同）。

— 乌木1
source

1

$(p,q)\geq 1,\;\lambda>0$

$(1)\;\underset{\beta|\lambda,x,y}{Arg\min.}||y-m(x,\beta)||_p+\lambda||\beta||_q$

相当于

$(2)\;\underset{\beta|\lambda,x,y}{Arg\min.}||y-m(x,\beta)||_p$

$s.t.$ $||\beta||_q\leq\lambda$

$||\beta||_q\leq\lambda$ $q=1,2$ $\hat{\beta}$ $\hat{\beta}$

$\lambda$ $\lambda=\infty$ $(x,y)$ $(1)-(2)$ $\lambda$ $\hat{\beta}|\lambda$

$e()=||y-m(x,\beta)||_p$ ）这是因为 $p=1$ （ $p=2$ ）这种模型与观测值之间距离的度量具有（容易地）可导出的渐近性质（强烈收敛到有意义的总体cooperparts $m()$ ）。

— 用户603
source

1

是

λ

$\lambda$ 一个可以自由选择的参数？

— 罗比·麦基利姆

@Robby：>谢谢。我稍稍追加了文字，以使参数和超参数之间的区别清晰可见。

— user603 2010年

@kwak：对不起，我不知道这意味着什么。符号p，q，lambda，x，y，m和beta表示什么？

— 巴特2010年

@bart：>我的答案与Srikant的答案基本相同。在他提供直观说明的地方，我想添加一个更严格的说明，以使将来的访问者受益，这些访问者可能与您有相同的问题，但对数学的理解比对非正规语言的熟悉。您提到的所有符号都在我的答案中定义（不过，再次，这是正式完成的）。

— user603 2010年

@kwak：例如在哪里定义p？

— 巴特2010年