是否存在我们无法抽样的单变量分布?


12

从单变量分布(逆变换,接受拒绝,Metropolis-Hastings等)中,我们有各种各样的随机生成方法,似乎我们可以从任何有效分布中采样-是这样吗?

您能否提供无法随机生成的单变量分布示例?我想这个不可能的例子不存在(?),所以说“不可能”是指计算量非常大的情况,例如,需要蛮力模拟,例如绘制大量样本以仅接受他们很少。

如果不存在这样的示例,我们是否可以实际证明可以从任何有效分布中生成随机抽奖?我只是很好奇是否存在反例。


6
我认为,这实际上归结为您所说的“不可能/不可能”。例如,在某些情况下,cdf和pdf的评估成本非常高,这会使大多数方法望而却步,并且在pdf上具有良好包络线的分布形状并不难(对于接受拒绝,大多数情况下避免了功能评估)。因此,在您已经排除的情况下,这将失败,并且与使用accept-reject(这将排除尝试使用cdf的数值反转)相比,我们可以使计算成本(平均每个偏差)更为昂贵F
Glen_b -Reinstate Monica

3
我们无法使用计算机从区间(0,1)上的无理数集中抽取出统一的随机样本。证明留给读者练习。
悬崖AB

2
@Cliff AB这可以通过间隔算术处理。在每个计算机可评估(合理)点周围定义一个(最小)间隔,以使这些间隔涵盖整个[0,1]。对于绘制的每台计算机可评估的“均匀”,在此间隔参数上计算累积分布函数的t(带向外取整)rhe间隔倒数。这将产生一个随机变量的区间样本,保证100%包含真实样本。
马克·L·斯通

2
我要说的是,因为您已经将足够低效的接受拒绝视为“不可能”,所以如果您付出的代价太高,以至于您知道的任何其他方法都更糟(需要更多的计算),那么您大概也会认为这些“不可能”。构造昂贵的评估F和f并不难,并且使它们变得很明显,从而可以避免明显地避免实际计算大部分时间的明显效率,ctd
Glen_b-恢复莫妮卡

1
ctd ...(但总的来说,人们都非常聪明,因此,如果您想到一个解决大部分问题的好主意,那么一天似乎很难做到)。如果我们说“某某精度的近似值很好”,那么在许多情况下都可以解决许多困难(例如,一个人可能能够构造大型的查找表/直方图生成,例如,大多数情况下,您会相当快地生成近似值)。
Glen_b-恢复莫妮卡

Answers:


15

如果您知道累积分布函数,则可以通过分析或数字方式将其反转,然后使用逆变换采样方法生成随机样本https://en.wikipedia.org/wiki/Inverse_transform_samplingF(x)

定义。这将处理任何分布,无论是连续分布,离散分布还是任何组合。这始终可以通过数值方式解决,也可以通过解析方式解决。令U为来自以Uniform [0,1]分布的随机变量(即来自Uniform [0,1]随机数生成器)的样本。然后 ,如上定义的是来自具有分布的随机变量的随机样本。 ˚F - 1Û ˚F X F1(y)=inf(x:F(x)y)F1(U)F(x)

这可能不是生成随机样本的最快方法,但是这是假定F(x)已知的一种方法。

如果F(x)未知,那就是另一回事了。


2
如果不知道,那么什么是已知的?显然这是相关的。如果您什么都不知道,您将无能为力。如果您知道什么,则取决于什么是什么。F(x
马克·L·斯通

@Tim实际上,我们不知道F(X)是很常见的,但是我们可以从中生成样本。这是蒙特卡洛(随机)模拟中的典型情况。
马克·L·斯通

@Tim:如果您对这个故事不感兴趣,则不清楚您对哪个故事感兴趣。在回应Glen_b的评论时,您说您并不担心采样效率低下。这种方法虽然效率低下,但可以让您从任何pdf样本中进行采样(假设数值积分失败的行为不是很糟糕,但我认为没有人关心使用这种分布)。因此,除非您对在无数个地方不连续的分布感兴趣,否则这应该是您的问题的答案:是的,我们可以。
悬崖AB

实际上,如果是已知的,但是不是,则这是一个问题。F 1FF1
西安

1
这取决于您所说的问题。如果已知,那么根据我的回答,始终是定义明确的,可以用数字求解。它可能没有您想要的那么快,所以如果这就是问题的意思,那么好吧,如果那不是您的意思,那是什么问题?˚F - 1Ý = Ñ ˚F X ˚F X Ý FF1(y)=inf(x:F(x)y)
Mark L. Stone

7

仅通过分布的矩生成函数或其特征函数,很少能找到从这些分布生成的方法。Φ t = E [ exp { i t X } ]ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

一个相关的例子是由 -stable分布组成的,该分布没有密度或cdf的已知形式,没有矩生成函数,但是具有封闭形式的特征函数。α

在贝叶斯统计中,与难解的可能性相关的后验分布,或者仅仅是太大而无法放入一台计算机的数据集,都可以被视为无法(精确)模拟。


如果您只知道力矩生成函数,则可以使用鞍点近似值,然后从中进行模拟。
kjetil b halvorsen

1
@西安您忽略了“有效”一词。在最坏的情况下,您可以对转换的数字求逆进行数字求逆。那会做的,也许不是“有效”的,但是会做的。
Mark L. Stone

3
@kjetilbhalvorsen:鞍点近似是我在链接中提出的解决方案。但这是一个近似值!
西安

2

Fu(0,1)F1(u)FF1


1

θ=(θ1,...,θd)θj

在某些情况下,有一些方法可以从该后验中近似采样,但是目前尚无确切的通用方法。


...但是问题是关于单变量分布。有许多复杂模型的示例,即使经过大量迭代,MCMC也无法收敛。
蒂姆

@Tim这就是为什么我说边缘后验,这意味着单变量 ...在我看来,你不清楚你在问什么。从理论上讲,前两个答案很明确,只要知道就可以从任何分布中进行抽样。
诺亚

1
我投票将这个问题[保留],直到OP澄清了他要问的问题,并在每次出现新答案时都停止更改该问题,以使答案不适用。
诺亚

不会更改“每次出现新答案时都会出现的问题”……显然,具有可能性和先验性的统计模型并不是单变量的,因为它是根据条件分布来声明的。如果从后验取样,这是单变量的,但是我猜您假设我们已经具有边际分布,因此,电缆内后验没有问题。
蒂姆

1
R

1

(qi)i=1P(X=qi)=0ii=1P(X=qi)=0P(XQ)=1

μπ(μ)=1


0

您能否提供无法随机生成的单变量分布示例?

cc

如果您只想对随机变量进行采样,该随机变量的值可以合理地近似为64位浮点数,或者您对值的有限误差具有类似的容忍度,那么无论如何您都不会代表图灵机,请考虑以下几点:

XBer(p)p=1c01

0(,c)1[c,)0(,0)c[0,1)1[1,)cxy-轴。我不确定哪个采样最困难,因此请选择您最不喜欢的一个;-)

假设“不可能”是指计算上非常昂贵的情况,例如,需要蛮力模拟,例如绘制大量样本以仅接受其中一些。

在这种情况下,显而易见的答案似乎很明显:

  • nn
  • 采样加密哈希函数的原像(即生成比特币并破坏git和mercurial)。
  • 采样最佳围棋策略集(据我所知,使用中国的超级规则,所有游戏都是有限的)。

正式一点:我给您提供一个NP完全问题(或EXP完全等)的大型实例,并请您为我统一抽样解决方案集。

R1

您可以轻松地检查任何给定的真值分配是否满足我的SAT实例,并检查所有结果后就知道是否有人满足,因此我通过给您一个布尔公式(或电路)来完全指定了CDF,但仍对相应的分布进行了采样实际上,您必须成为至少与SAT可解决性预言一样强大的工具。


因此,我给您提供了一个无可争议的数字,该数字应该会打乱您的齿轮,而CDF却给您带来了计算缓慢的麻烦。也许要问的下一个明显问题是这样的:是否存在以某种有效形式表示的CDF(例如,可以在多项式时间内求值),以致难以生成具有这种分布的样本?我不知道那个答案。我不知道那个答案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.