了解Duda等人的模式分类中没有免费的午餐定理

我对第9.2节Duda，Hart和Stork的模式分类中的任何分类器缺乏固有的优越性所用的符号有疑问。首先让我引用书中的一些相关文字：

为简单起见，考虑一个两类问题，其中训练集由模式和相关联的类别标签，其中由待学习的未知目标函数，其中。 $D$ $x^i$ $y_i = ± 1$ $i = 1,..., n$ $F(x)$ $y_i = F(x^i)$

令表示假设（离散）或可能学习的参数集。的特定假设可以通过神经网络中的量化权重或功能模型中的参数0或树中的决策集等来描述。 $H$ $h(x) \in H$

此外，是算法在训练后产生假设的先验概率；注意，这不是正确的可能性。 $P(h)$ $h$ $h$

接下来，表示算法在对数据训练时产生假设的概率。在确定性学习算法（例如最近邻居和决策树）中，在任何地方都为零，除了单个假设。对于随机方法（例如从随机初始权重训练的神经网络）或随机Boltzmann学习，可能分布很广。 $P(h|D)$ $h$ $D$ $P(h|D)$ $h$ $P(h|D)$

设为零一或其他损失函数的误差。 $E$

给出真实函数为且第个候选学习算法的概率为时的预期训练集分类错误 $F(x)$ $k$ $P_k(h(x)|D)$
$E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D)$ $\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D)$
定理9.1。（不提供免费午餐）对于任何两个学习算法和，以下事实都是正确的，与采样分布和训练点数无关： $P_1 (h |D)$ $P_2(h|D)$ $P(x)$ $n$

对所有目标函数均匀地求平均， $F$ $\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n) = 0$

对于任何固定的训练集，均匀地平均， $D$ $F$ $\mathcal{E}_1 (E|F, D) — \mathcal{E}_2(E|F, D) = 0$

第1部分实际上是说
$\sum_{F} \sum_{D} P (D | F) [E_{1} (E | F, n) — E_{2} (E | F, n)] = 0$ $\sum_F \sum_D P(D|F) [\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n)] = 0$
第2部分实际上是说
$\sum_{F} [E_{1} (E | F, D) — E_{2} (E | F, D)] = 0$ $\sum_F [\mathcal{E}_1 (E|F, D) — \mathcal{E}_2(E|F, D)] = 0$

我的问题是

在的公式中，即我可以替换与和移动它的总和外因为它是真正的分布超过给出为个随机学习算法？ $\mathcal{E}_k(E|F,n)$ $E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D),$ $\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D),$ $P_k(h(x)|D)$ $P_k(h|D)$ $\sum_{x \notin D}$ $h$ $H$ $D$ $k$
给定第个候选学习算法是随机方法，为什么在的公式中，在上没有总和，即？ $k$ $\mathcal{E}_k(E|F,n)$ $h$ $\sum_{h \in H}$
如何和彼此不同？ $\mathcal{E}_i (E|F, D)$ $\mathcal{E}_i (E|F, n)$

请问是指给定的训练集关闭训练误差率？ $\mathcal{E}_i (E|F, D)$ $D$

请问指的是离训练误差率，平均在给定的训练大小所有训练集？如果是，为什么再次写来使NFL定理的第1部分在训练集上再次，为什么在，在给定训练量，所有训练集都没有平均值。 $\mathcal{E}_i (E|F, n)$ $n$ $\mathcal{E}_i (E|F, n)$ $\sum_D$ $\mathcal{E}_k(E|F,n)$ $n$
在NFL定理的第1部分中，意味着对所有具有固定训练大小训练集求和？ $\sum_D$ $n$
如果在第1部分中进一步对训练大小为的所有可能值求和，结果仍然为0，对吗？ $\mathbb{N}$ $n$
在的公式中，如果我将更改为，即不一定限于训练集之外，则两个部分都将NFL定理仍然正确吗？ $\mathcal{E}_k(E|F,n)$ $\sum_{x \notin D}$ $\sum_x$ $x$
如果不假定和之间的真实关系是确定函数因为，而是条件分布或等于的联合分布知道和（另请参见我的另一个问题），然后可以将更改为（带有奇怪的在第1部分和第2部分中指出。NFL定理的两个部分仍然正确吗？ $x$ $y$ $F$ $y=F(x)$ $P(y|x)$ $P(x,y)$ $P(y|x)$ $P(x)$ $\mathcal{E}_k (E|F,n)$ $E_{k} (E | P (x, y), n) = E_{x, y} [1 - δ (y, h (x))] P_{k} (h (x) | D)$ $\mathcal{E}_k(E|P(x,y),n) = \mathcal{E}_{x,y} [1-\delta(y, h(x))] P_k(h(x)|D)$ $P_k(h(x)|D)$

感谢致敬！

machine-learning

— 提姆
source

是狄拉克/克罗内克增量？在

δ

$\delta$

E_{k} (E | F, n) = \sum_{x \notin D} P (x) [1 - δ (F (x), h (x))] P_{k} (h (x) | D)

$\mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D)$

这个免费午餐定理与停止问题相同吗？他们有联系吗？

我将回答我认为我知道答案的问题。

答案是否定的，因为您选择的不是拟合集一部分，因此取决于。 $x$ $D$ $h$ $x$
$h$ 仅在测试集中的值处评估以获得预期的错误率，因此不在整个集评估而仅在测试集中的的离散集进行评估。 $x$ $H$ $x$
$\mathcal{E}_i(E|F, D)$ 是给定函数和训练集的预期偏离训练集错误率。但是我认为是不同的，因为您仅以训练点数，而不是以实际值为条件。但是考虑到随后的陈述，这令人困惑。 $F$ $D$ $\mathcal{E}_i(E|F, n)$ $n$ $x$
$D$ 是训练向量的集合。有训练向量。因此，您正在求和固定的训练向量。只有一组。 $n$ $D$ $n$ $D$ $D$
我认为5的答案是否定的。这种表示似乎有些混乱。

无法评论6和7。

— 迈克尔·R·切尼克
source

+1。欢迎使用该网站，我非常支持您对亚马逊的评论。在编辑中我的假设是对的，数学符号主要是通过将$放在事物的两边来完成的。如果单击黄色圆圈？在撰写本文时，在右上角，您会看到“高级帮助”链接，该链接将提供更多信息；另外，您可以右键单击一些现有的mathjax（例如上述任何一项），然后选择“将数学显示为-> TeX命令”以查看其操作方式。

— gung-恢复莫妮卡

换句话说，@ gung在说：该站点（几乎）完全按照您期望的方式支持，包括显示数学。欢迎来到该网站。

L A T E X

$\LaTeX$

— 主教

@Michael请允许我对其他人表示欢迎：很高兴在这里见到您。（迈克尔在美国统计协会的讨论名单上做出了非常有见地的贡献。）

— ub