什么是机器学习中的贝叶斯错误?


15

http://www.deeplearningbook.org/contents/ml.html第116页说明了贝叶斯错误,如下所示

理想的模型是一个预言家,它仅知道生成数据的真实概率分布。即使这样的模型在许多问题上仍然会产生一些错误,因为分布中可能仍然存在一些噪音。在监督学习的情况下,从x到y的映射可能是内在随机的,或者y可能是确定性函数,除了x中包括的变量之外,还涉及其他变量。预言家根据真实分布p(x,y)进行预测而引起的错误称为贝叶斯错误。

问题

  1. 请直观地解释贝叶斯错误?
  2. 它与不可减少的误差有何不同?
  3. 我可以说总误差=偏差+方差+贝叶斯误差吗?
  4. “ y可能固有地是随机的”是什么意思?

Answers:


23

贝叶斯误差是可以实现的最低可能的预测误差,与不可约误差相同。如果人们确切地知道哪个进程生成数据,那么如果该进程是随机的,那么仍然会出错。这也就是“本质上是随机的”的意思。y

例如,当掷出一枚公平硬币时,我们确切地知道是什么过程产生了结果(二项式分布)。但是,如果我们要预测一系列抛硬币的结果,我们仍然会出错,因为该过程本质上是随机的(即随机的)。

为了回答您的另一个问题,您正确地说总误差是偏差(平方),方差和不可减少误差的总和。又见文章为容易理解这三个概念的解释。


-2

https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf。对于分类任务,贝叶斯误差定义为:

minf=Cost(f)

贝叶斯分类器定义为: argminf=Cost(f)

因此,总误差=贝叶斯误差+您的模型比贝叶斯误差偏差+方差+贝叶斯误差差多少,这可能取决于您的模型和“分布噪声”的固有性质

“ y可能固有地是随机的”是什么意思?例如,。但是,您作为y收集的总是被污染为,其中因此您无法知道真实的y,而成本估算为本质上受到污染。甚至Oracle给您正确的答案,您也认为它们是错误的。y=f(x)=sin(x)y~=y+tŤñ0σ2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.