我会对以“反思时……”开头的段落的反馈意见感兴趣,因为该模型的特定部分一直使我无法入睡。
贝叶斯模型
修改后的问题使我认为无需使用仿真就可以显式开发模型。由于采样固有的随机性,模拟引入了更多的可变性。不过,心理学家的回答很好。
假设:每个信封的最小标签数是90,最大是100。
因此,标签的最小数量为9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043(由OP的数据提供),由于我们的下限,因此为9000,而其他标签则来自观察到的数据。
用信封的标签数表示。表示的标签数超过90,即,因此。该二项式分布模型的成功的总数(在此为成功是标签的在一个信封的存在下)在试验时的试验是独立的恒定成功概率所以取值我们取,它给出11种可能的结果。我假设由于工作表尺寸不规则,因此某些工作表仅容纳YiiXiX=Y−90X∈{0,1,2,...,10}npX0,1,2,3,...,n.n=10X超过90的额外标签,并且每个超过90的标签的“额外空间”以概率独立发生。因此pXi∼Binomial(10,p).
(根据反思,独立性假设/二项式模型可能是一个奇怪的假设,因为它可以有效地将打印机纸张的组成固定为单峰,并且数据只能更改模式的位置,但模型永远不会承认例如,在另一种模式下,打印机可能仅的纸张尺寸分别为97、98、96、100和95:这可以满足所有规定的约束条件,数据也不排除这种可能性。将每种图纸尺寸视为自己的类别,然后将Dirichlet多项式模型拟合到数据可能更合适。我在这里不做此操作,因为数据非常稀缺,因此11个类别中每个类别的后验概率都会受到先验的强烈影响。另一方面,通过拟合更简单的模型,我们同样限制了我们可以做出的推断的种类。)
每个信封是一个iid实现。具有相同成功概率的二项式试验的总和也是二项式的,因此(这是一个定理-要验证,请使用MGF唯一性定理。)iXp∑iXi∼Binomial(60,p).
我更喜欢在贝叶斯模式下考虑这些问题,因为您可以对感兴趣的后验数量做出直接的概率陈述。未知二项式试验的典型先验条件是β分布,该分布非常灵活(0到1之间的变量可以在任一方向上对称或不对称,均匀或两个Dirac质量之一,具有反模或模。 (这是一个了不起的工具!)。在没有数据的情况下,假设概率均匀是合理的。就是说,人们可能希望看到一张纸可以容纳90个标签,而该标签通常包含91个标签,92个标签,...,多达100个标签。因此,我们的先验条件是ppp∼Beta(1,1).如果您认为此Beta先验条件不合理,则可以用另一个Beta先验条件代替统一先验条件,并且数学难度甚至不会增加!
上后验分布是通过该模型的共轭性质。不过,这只是一个中间步骤,因为我们对关心不如对标签总数的关心。幸运的是,共轭特性还意味着薄片的后验预测分布为β-二项式,其参数为β后验。有试“试验”,即不确定其在交付中是否存在的标签,因此我们在其余标签上的后验模型为pp∼Beta(1+43,1+17)p940ZZ∼BB(44,18,940).
因为我们在上有一个分布,并且每个标签都有一个价值模型(卖方同意每个标签一美元),所以我们也可以推断出批次价值的概率分布。将表示批次的总美元价值。我们知道,因为仅建模我们不确定的标签。因此,值的分布由给出。ZDD=9043+ZZD
考虑批量定价的合适方法是什么?
我们可以发现,在0.025和0.975(95%的间隔)处的分位数分别为553和769。因此D的95%间隔为。您的付款在该间隔内。(上的分布不完全对称,因此这不是中心95%的间隔-但是,不对称性可以忽略不计。无论如何,正如我在下面详细说明的那样,我不确定中心95%的间隔是否正确一个要考虑的!)[9596,9812]D
我不了解R中的beta二项式分布的分位数函数,因此我使用R的根查找编写了自己的函数。
qbetabinom.ab <- function(p, size, shape1, shape2){
tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
q <- uniroot(f=tmpFn, interval=c(0,size))
return(q$root)
}
考虑它的另一种方法就是考虑期望。如果您多次重复此过程,您平均要支付的费用是多少?我们可以直接计算的期望值。Beta二项式模型的期望值为,因此几乎是您所支付的。您在交易中的预期损失仅为6美元!总而言之,做得好!DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,
但是我不确定这两个数字中哪一个最相关。毕竟,该供应商正试图欺骗您!如果我正在做这笔交易,我将不再担心收支平衡或公平价格,而开始计算出我多付的可能性!供应商显然试图欺骗我,所以我完全有权利尽量减少损失,而不必担心收支平衡点。在这种情况下,我提供的最高价格是9615美元,因为这是后验的5%,即我有95%的概率被少付D。卖方无法向我证明所有标签都在那里,所以我将套期保值。
(当然,卖方接受交易的事实告诉我们,他的实际损失是非负的……我没有想出一种方法来使用这些信息来帮助我们更准确地确定您被骗了多少,除非要注意那是因为他接受了要约,您充其量只能做到收支平衡。)
与引导程序的比较
我们只有6个观察值可以使用。引导程序的理由是渐近的,因此让我们考虑一下小样本的结果。该图显示了Boostrap模拟的密度。
“凹凸不平”模式是样本量较小的伪影。包含或排除任何一点将对均值产生戏剧性影响,从而产生这种“蓬松”的外观。贝叶斯方法使这些团块变得平滑,我认为这是对正在发生的事情的更可信的描述。垂直线是5%的分位数。