我将首先使用概率理论,然后选择最能计算出概率论告诉您的算法。所以,你必须训练数据,以及一些新的前体,和对象进行分类,以及您的先验信息。TXYI
所以,你想了解。然后概率论说,仅根据您所能获得的所有信息来计算其概率。Y
P(Y|T,X,I)
现在,我们可以使用任何概率论规则来将其操纵为我们知道如何计算的事物。因此,使用贝叶斯定理,您将得到:
P(Y|T,X,I)=P(Y|T,I)P(X|Y,T,I)P(X|T,I)
现在,通常很容易-除非您的先验信息可以告诉您有关训练数据之外的某些信息(例如相关性),否则它由继承规则给出-或基本上是的观察分数在训练数据集中是正确的。P(Y|T,I)YY
对于第二项 -这是您的模型,大部分工作将在哪里进行,并且不同的算法将执行不同的操作。 有点难计算,因此我们采取以下技巧来避免这样做:取对的几率(即不是)。我们得到:P(X|Y,T,I)P(X|T,I)YY¯¯¯¯Y
O(Y|T,X,I)=P(Y|T,X,I)P(Y¯¯¯¯|T,X,I)=P(Y|T,I)P(Y¯¯¯¯|T,I)P(X|Y,T,I)P(X|Y¯¯¯¯,T,I)
现在,您基本上需要一个决策规则-当几率/概率高于某个阈值时,将把归类为“真”,否则将其归类为“假”。现在,没有人能真正为您提供帮助-这是一个决定,取决于做出正确和错误决定的后果。这是一个主观练习,只有适当的上下文才能回答。当然,“主观性”仅在存在高度不确定性的情况下才重要(即,您有一个“废话”模型/数据无法很好地区分两者)。Y
第二个量-模型是“预测”模型。假设先验信息指示依赖于参数的单个模型。然后数量由下式给出:P(X|Y,T,I)θY
P(X|Y,T,I)=∫P(X,θY|Y,T,I)dθ=∫P(X|θY,Y,T,I)P(θY|Y,T,I)dθY
现在,如果您的模型属于“ iid”种类,则。但是,如果您具有从属模型,例如自回归模型,则可能仍然很重要。和是在模型中的参数后验分布-这是训练数据将决定部分。这可能是大部分工作要做的地方。P(X|θY,Y,T,I)=P(X|θY,Y,I)TP(θY|Y,T,I)
但是,如果无法确定该模型怎么办?嗯,就像一样,它成为集成的另一个麻烦参数。调用第ith个模型及其参数,方程式变为:θYMiθ(i)Y
P(X|Y,T,I)=∑iP(Mi|Y,T,I)∫P(X|θ(i)Y,Mi,Y,T,I)P(θ(i)Y|Mi,Y,T,I)dθ(i)Y
其中
P(Mi|Y,T,I)=P(Mi|Y,I)∫P(θ(i)Y|Mi,Y,I)P(T|θ(i)Y,Mi,Y,I)dθ(i)Y
(注意:是“第i个模型是所考虑的集合中最好的一个”的形式的命题。并且,如果您要对模型进行集成,则不允许不适当的先验-在这种情况下,无限性不会抵消,您会胡说八道)Mi
现在,到此为止,所有结果都是精确且最佳的(这是选项2-对数据应用一些很棒的算法)。但这是一项艰巨的任务。在现实世界中,所需的数学在实践中可能不可行-因此您将不得不妥协。您应该始终“去尝试”精确的方程式,因为您可以简化的任何数学运算都将节省您在PC上的时间。但是,第一步很重要,因为这确定了“目标”,并明确了要做什么。否则,您(看起来似乎)将面临一整套潜在选择,而没有选择余地。
现在,在这个阶段,我们仍然处在“符号逻辑”世界中,没有什么真正有意义的。因此,您需要将这些链接到您的特定问题:
- P(Mi|Y,I)是第i个模型的先验概率-通常对所有i都是相等的。
- P(θ(i)Y|Mi,Y,I)是第i个模型中参数的先验(必须正确!)
- P(T|θ(i)Y,Mi,Y,I)给定第i个模型,是训练数据的似然函数
- P(θ(i)Y|T,Mi,Y,I)是第i个模型中参数的后验,取决于训练数据。
- P(Mi|Y,T,I)是基于训练数据的第i个模型的后验
将有另一组方程Y¯¯¯¯
请注意,如果a)一个模型显然是赢家,那么方程将大大简化,因此该模型内的 and b),其参数非常精确,因此被整数类似于增量函数(并且积分非常接近替代或插件估计)。如果同时满足这两个条件,则您将:P(Mj|Y,T,I)≈1
P(X|Y,T,I)≈P(X|θ(j)Y,Mj,Y,T,I)θ(j)Y=θ^(j)Y
这是解决此类问题的“标准”方法。