为什么Akaike信息标准在机器学习中没有更多使用?


16

我刚遇到“赤池信息准则”,并且注意到大量关于模型选择的文献(似乎还存在BIC之类的东西)。

为什么当代的机器学习方法不利用这些BIC和AIC模型选择标准?


9
因为没有人计算可能性?
阿克萨卡邦(Aksakal)

1
您所说的“当代机器学习方法”是什么意思?据我所使用的AIC和BIC经常使用。
Ferdi

4
还为什么为-1?请记住,没有愚蠢的问题-每个问题都试图阐明宇宙
回声

4
@echo:我没有downvote,但我认为,如果你能源/支持的主要要求(即机器学习方法做的这些BIC和AIC模型选择标准乘虚而入),您的问题将得到改善
user603

2
@Aksakal谢谢。我认为最好是围绕广泛的索赔提出的问题可以提出该索赔。我的意思是作为一般规则。
user603

Answers:


15

例如在逐步回归中使用AIC和BIC。它们实际上是更广泛使用的“启发式”类别的一部分。例如,在贝叶斯模型选择中经常使用DIC(距离信息标准)。

但是,它们基本上是“启发式”。可以看出,AIC和BIC都渐近地趋于交叉验证方法(我认为AIC趋向于留一法CV,BIC趋向于其他方法,但我不确定),他们知道不足的惩罚和过度的惩罚。即使用AIC,您通常会得到一个模型,它比应该的要复杂得多,而使用BIC,您通常会得到一个过于简单的模型。

由于两者都与CV有关,因此CV通常是更好的选择,不会受到这些问题的困扰。

最后,是BIC和AIC所需的参数数量的问题。使用实数输入上的通用函数逼近器(例如KNN),可以“隐藏”参数,即构造包含与两个实数相同的信息的实数(例如,与数字相交)。在这种情况下,实际的参数数量是多少?在另一方面,更复杂的模型,你可能对你的参数限制,说你只能拟合参数,使得θ1>θ2(例如参见这里)。或者您可能具有不可识别性,在这种情况下,参数的多个值实际上会给出相同的模型。在所有这些情况下,仅对参数进行计数都无法得出合适的估算值。

由于许多当代的机器学习算法都显示了这些特性(即通用逼近,参数数量不清楚,不可识别性),因此AIC和BIC对于这些模型的用处不大,乍一看似乎并不有用。

编辑

还有更多需要澄清的地方:

  1. 似乎我认为通过将RRN之间的双射数字交错来考虑映射是错误的(请参阅此处)。但是,为什么这不是双射的细节有些难以理解。但是,对于这个想法,我们实际上并不需要双射(一个射出就足够了)。
  2. 根据Cantor(1877)的证明,在RRN之间必须存在一个双射。尽管无法明确定义该双射,但可以证明其存在(但这需要未经证明的选择公理)。该双射仍然可以在理论模型中使用(可能无法在计算机中实际实现该模型),以将单个参数分解为任意数量的参数。
  3. 实际上,我们实际上不需要RRN之间的映射为双射。RRN任何射影函数都足以从一个参数中解开多个参数。可以证明这种猜想是对其他函数序列的限制(所谓的空间填充曲线,例如Peano曲线)的存在。
  4. 因为Cantor的证明既不是建设性的(它只是证明了双射的存在而没有给出示例),也不是空间填充曲线(因为它们仅作为建设性对象的极限,因此本身不是建设性的),因此论点I提出只是一个理论上的证明。从理论上讲,我们可以继续向模型添加参数,以将BIC降低到任何期望值(在训练集上)以下。但是,在实际的模型实现中,我们必须逼近空间填充曲线,因此逼近误差可能会阻止我们实际执行此操作(我尚未对此进行实际测试)。
  5. 由于所有这些都需要选择公理,因此,如果您不接受该公理,则证明将无效(尽管大多数数学家都接受)。这意味着,在构造性数学中这可能是不可能的,但我不知道构造性数学在统计中起什么作用。
  6. 可识别性与功能复杂性有内在联系。如果仅采用可识别的N参数模型并添加多余的参数(例如,未在任何地方使用),则新模型将变得不可识别。本质上,人们正在使用具有RN+1复杂度的模型来解决具有RN复杂度的问题。同样,具有其他形式的不可识别性。以无法识别的参数排列为例。在那种情况下,使用的模型具有RN的复杂度,但是,实际问题仅具有R N上的一组等价类的复杂性RN。但是,这只是一个非正式的论点,我不知道对“复杂性”这一概念有任何形式上的处理。

请关注此帖子stats.stackexchange.com/questions/325129/…?我有一段时间没有运气了。
Skander H.-恢复莫妮卡

1
@LiKao您能否引用隐藏参数的“技术”,例如相交的数字。
horaceT

@horaceT不幸的是,我不知道有任何论文可以说明这个例子。在有关MDL的论文中,有“功能复杂性”的概念(例如lpl.psy.ohio-state.edu/documents/MNP.pdf参见等式10)。通常情况下,该示例是使用受约束的参数(例如researchgate.net/publication/…)制作的。在讨论此示例时,我喜欢将示例转过来,并显示一个复杂的单个参数可以捕获多个简单参数,因为我发现它更直观。
LiKao

f1,2:RR2f1,N:RRNNf1,NNN1

@LiKao这很吸引人。请参考“归档曲线”的证明。我可以看到受约束的参数具有“较小”的自由度。天真地,如果f(x,y)= 0,则y只是x的函数;您只需将g(x)放在y所在的位置。约束优化不能做类似的事情。
horaceT
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.