我对第9.2节Duda,Hart和Stork的模式分类中的任何分类器缺乏固有的优越性所用的符号有疑问。首先让我引用书中的一些相关文字:
- 为简单起见,考虑一个两类问题,其中训练集由模式和相关联的类别标签 ,其中由待学习的未知目标函数,其中。
- 令表示假设(离散)或可能学习的参数集。的特定假设 可以通过神经网络中的量化权重或功能模型中的参数0或树中的决策集等来描述。
- 此外,是算法在训练后产生假设的先验概率;注意,这不是正确的可能性。
- 接下来,表示算法在对数据训练时产生假设的概率。在确定性学习算法(例如最近邻居和决策树)中, 在任何地方都为零,除了单个假设。对于随机方法(例如从随机初始权重训练的神经网络)或随机Boltzmann学习,可能分布很广。
- 设为零一或其他损失函数的误差。
给出真实函数为且第个候选学习算法的概率为时的预期训练集分类错误
定理9.1。(不提供免费午餐)对于任何两个学习算法和,以下事实都是正确的,与采样分布和训练点数无关:P 2(h | D )P (x )n
对所有目标函数均匀地求平均,E 1(E | F ,
对于任何固定的训练集,均匀地平均, F E 1(E | F ,D
第1部分实际上是说
第2部分实际上是说
我的问题是
- 在的公式中,即我可以替换与和移动它的总和外因为它是真正的分布超过给出为个随机学习算法? È ķ(Ë | ˚F,Ñ)= Σ X ∉ d P(X)[1-δ(˚F(X),H ^(X))] P ķ(P k(h (x )P ķ(ħ | d )Σ X ∉ d ħ ħ d ķ
- 给定第个候选学习算法是随机方法,为什么在的公式中,在上没有总和,即?E k(E | F ,ħ Σ ħ ∈ ħ
如何和 彼此不同?E i(E | F ,n )
请问是指给定的训练集关闭训练误差率?D
请问指的是离训练误差率,平均在给定的训练大小所有训练集?如果是,为什么再次写来使NFL定理的第1部分在训练集上再次,为什么在 ,在给定训练量,所有训练集都没有平均值。n E i(E | F,n) ∑ D
- 在NFL定理的第1部分中,意味着对所有具有固定训练大小训练集求和?
- 如果在第1部分中进一步对训练大小为的所有可能值求和,结果仍然为0,对吗?
- 在的公式中,如果我将更改为,即不一定限于训练集之外,则两个部分都将NFL定理仍然正确吗? ∑
- 如果不假定和之间的真实关系是确定函数因为,而是条件分布或等于的联合分布知道和(另请参见我的另一个问题),然后可以将
更改为(带有奇怪的在第1部分和第2部分中指出。NFL定理的两个部分仍然正确吗?P k(h (x )| D )
感谢致敬!
是狄拉克/克罗内克增量?在ë ķ(Ë | ˚F ,Ñ )= Σ X ∉ d P (X )[ 1 - δ (˚F (X ),H ^ (X ))] P ķ(ħ (X )| d )