解决德国坦克问题


10

是否有一个正式的数学证明了解决德国坦克问题是的函数参数ķ(观察到的样本数)和(观察到的样品中的最大值)?换句话说,可以证明该解决方案与最大值以外的其他样本值无关吗?


3
您要问的是如何显示样本最大值足以指定参数指定从1到的离散均匀分布的上限。θθθ
Scortchi-恢复莫妮卡

2
Fisher Neyman因子分解定理似然函数,给定参数(储罐数)的观察样本的概率(由最大概括)可以完全用和 这是答案吗?kmnkm
Pr(M=m|n,k)={0if m>n(m1k1)(nk)if mn,
Sextus Empiricus

@Scortchi是正确的,感谢您以更清晰的方式对我进行了重新措辞。
Bogdan Alexandru

@MartijnWeterings没有;本质上,我是在问(引用上面的Scortchi的评论)证明样本最大值足以解决问题,而无需实际计算解决方案。
Bogdan Alexandru

因此,您不是要寻找Fisher Neyman分解定理作为证明吗?
Sextus Empiricus

Answers:


15

可能性

概率论中的常见问题是在给定特定模型并给定涉及参数(称为)的情况下,观察的概率。例如,纸牌游戏或骰子游戏中特定情况的概率通常非常简单。x1,x2,...,xnθ

但是,在许多实际情况下,我们正在处理相反的情况(推论统计)。也就是说:给定了观测值,现在模型是未知的,或者至少我们不知道某些参数。x1,x2,...,xkθ

在这些类型的问题中,我们通常将其称为参数的可能性,这是对给定观测值的特定参数的相信率。假设模型参数假设为真,则将该术语表示为与观测值的概率成比例。L(θ)θx1,x2,..xkx1,x2,..xkθ

L(θ,x1,x2,..xk)probability observations x1,x2,..xk given θ 

对于给定的参数值,某个观测值的可能性更大(相对于其他参数值的概率),观测值支持该特定参数(或假设该参数的理论/假设)越多。(相对)较高的可能性将加强我们对参数值的信念(对此有更多的哲学意义)。θx1,x2,..xn


德国坦克问题的可能性

现在对于德国坦克问题,一组样本的似然函数为:x1,x2,..xk

L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0if max(x1,x2,..xk)>θ(θk)1if max(x1,x2,..xk)θ,

参数的均匀分布考虑样本时,无论观察样本{1、2、10}还是样本{8、9、10}都没有关系。这两个样本都具有的可能性,并且使用可能性的想法,一个样本比另一个样本没有更多地介绍参数。θ(θ3)1θ

高值{8,9,10}可能会使您认为/相信应该更高。但是,只有值{10}确实为您提供了有关可能性的相关信息(值10告诉您将为10或更高,其他值8和9对此信息没有任何帮助)。θθθ


Fisher Neyman分解定理

该定理告诉您,某个统计量(即,观测值的某些函数,例如均值,中位数或德国坦克问题中的最大值)足以(包含所有信息)您可以在似然函数中排除依赖于其他观测值,以使该因子既不依赖于参数也不依赖于参数和(和将数据与假设参数值相关联的似然函数部分仅取决于统计信息,而不取决于整个数据/观察值。T(x1,x2,,xk)x1,x2,,xkθx1,x2,,xk

德国坦克问题的情况很简单。您可以在上面看到,上述“可能性”的整个表达式仅取决于统计,其余值无关紧要。max(x1,x2,..xk)x1,x2,..xk


以小游戏为例

假设我们反复玩以下游戏:本身是一个随机变量,并以100或110的相等概率绘制。然后绘制样本。θx1,x2,...,xk

我们要根据观察到的选择一种猜测的策略,以最大程度地提高对的正确猜测的可能性。θx1,x2,...,xkθ

除非样本中的数字之一大于100,否则适当的策略是选择100。

当许多趋向于都是接近于100的高值(但没有正好超过100)时,我们可能会很想选择参数值110 ,但这是错误的。当真实参数值是100时,这样的观察的概率会比110时大。因此,如果我们在这种情况下猜测参数值为100,那么我们犯错误的可能性就较小(因为当真实值为100而不是真实值为110时,这些接近100的高值但仍然低于该值的情况更常发生。x1,x2,...,xk


太棒了,正是我所需要的!关于最后一个括号,只有一个评论:您说的是“这些接近100的高值发生的频率更高……”,我知道这是为什么,但是为了澄清:1到100之间的任何值都更有可能出现当参数为100时(基本上1-100中每个数字的概率为1 /参数)。
Bogdan Alexandru

而且,现在您对我的帖子的初步评论是有意义的-如果我知道如何应用这些概念,那么您的评论将恰好是我获得证明所需的提示。再次感谢!
Bogdan Alexandru

@BogdanAlexandru你是对的;1-100之间的任何值都是如此。这是违反直觉的想法,我们倾向于认为,较高的观测值在某种程度上要比低观测值更能证明某些参数值,但对于任何数量的观测值都是一样的,因此对我们对模型参数的信念没有任何贡献(除了观察到的最大值外,即使在我只在两个值之间进行选择的游戏中,也是如此,即使在最大值或更低值时,即使最大值,也不会提供更多的信息(除非在百分界附近)。
Sextus Empiricus

我最初的评论可能太过沉重,但我只是想看看需要什么样的答案。特别是我发现“证明”一词有点强,并且想知道您是在寻找因式分解定理(当您不知道该定理时,是一个肯定的回答)还是您是否在寻找更模糊和哲学上的,甚至是挑战性的统计/似然概念,也超越了这样的定理,寻找不同类型的“证明”。
Sextus Empiricus

那么,请仔细阅读我的意图!再次感谢。
Bogdan Alexandru

0

您尚未提供“问题”的精确表述,因此不清楚您要证明的内容。从贝叶斯角度来看,后验概率确实取决于所有数据。但是,每次观察特定的序列号将最支持该序列号。也就是说,给定任何观察值,假设“实际坦克数为 ” 的假设的后验概率与先验概率之比将大于“实际坦克数为[以外的数字]” 的假设。因此,如果我们从统一的先验开始,那么在看到该观察值之后,将具有最高的后验。nnnn

考虑一下我们有数据点并假设。显然,的后验为零。而我们的后验将比以前更大。原因是在贝叶斯推理中,缺乏证据就是缺乏证据。任何时候,我们有我们的机会可能已经作出的观察,将有我们的概率降低,但不这样做,概率增大。因为我们可以看到,这将使后验者设置为零,所以我们没有看到它的事实意味着我们应该为13N=10,13,15N=10N=13,1516 Ñ = 13 15 Ñ = 13 15 Ñ = 13 14 15 16 N = 15 16 N = 13 N = 15 N = 13 N = 13 N = 15 N16N=13,15N=13,15。但是请注意,数字越小,我们可以看到的更多数字将排除该数字。对于,在看到之后,我们将拒绝该假设。但是对于,我们将需要至少来拒绝该假设。由于假设比更容易伪造,因此我们伪造的事实更多地证明了,而不是不伪造的事实更证明了。N=1314,15,16,...N=1516N=13N=15N=13N=13N=15N=15

因此,每当我们看到一个数据点时,它会将位于其下方的所有元素的后验置零,并增加其他所有元素的后验,而较小的数字将获得最大的提升。因此,获得最大提升的数字将是后验未设置为零的最小数字,即观测值的最大值。

小于最大值的数字会影响最大值获得的提升幅度,但不会影响最大值获得最大提升的总体趋势。考虑上面的示例,我们已经看过。如果我们看到的下一个数字是,将会有什么效果?它可以帮助个大于,但是两个数字都已被拒绝,因此这无关紧要。它在以上帮助了,但是在以上已经帮助了,因此这并不影响哪个数字得到了最大的帮助。1355613151315


此示例在很大程度上取决于情况,并且声明并不通用。例如,如果现有为13的50%和15 50%然后13的观察是不使得“我们对于N = 13,15后验将大于它们先前的”观测可后部相对减小到现有。
Sextus Empiricus

同样,观察更多的数字可能会改变推断。在“如果我们看到的下一个数字是5 ...”的情况,即使数字已经被“帮助”,后验将仍然会改变,其他数字也会增加这种“帮助”(例如,对所有数字进行采样时) 1,2,... 12,13,13这样将比只采样13时增加13
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.