拉丁超立方采样渐近线


11

我正在尝试为我正在研究的问题构建证明,而我所做的一个假设是,我从中采样的点集在整个空间中都是密集的。实际上,我使用拉丁超立方体采样来获取整个采样空间中的点。我想知道的是,如果让您的样本大小趋于那么拉丁超立方体样本在整个空间中是否密集?如果是这样,将不胜感激对此事实的引用。


4
是的,假设是连续分布,因为对于任何您都可以将除数设置为使得所有每个变量区间的宽度都。因此,您选择的任意点周围的宽度超立方体都严格包含至少一个超间隔(即样本量)。(评论,而不是答案,因为据我所知,关于LHS的所有信息都来自十分钟前的Wikipedia ...)ϵ>0<ϵ/2ϵ
Creosote 2015年

的确如此,但我认为它不能轻易用于显示大型拉丁超立方体样品的密度。这样做的原因是LHS中的采样点不是独立的:特定超间隔内的采样点的存在会阻止其他任何采样点出现在同一行/列中(或与此无关的任何多维术语) 。
S. Catterall恢复莫妮卡(Monica)

@Creosote您认为您可以将答案进一步形式化吗?

@RustyStatistician,请根据您的证明要求以正式的方式扩大您的空缺职位,以解释“我要从中采样的点集在整个空间中都是密集的”的意思。谢谢。
Creosote

如果我采用n太大的初始拉丁超立方体样品,我们认为它是不确定的,那么样品是否稠密?

Answers:


6

简短的回答:是的,以概率的方式。有可能表明,在给定距离ϵ>0,样本空间的任何有限子集{x1,,xm}和任何规定的“公差” δ>0,对于适当大的样本量,我们可以确定有一个距离内的采样点的概率ϵxi>1δ所有i=1,,m

长答案:我不知道任何直接相关的引用(但请参见下文)。有关拉丁文超立方采样(LHS)的大多数文献都涉及其方差减少特性。另一个问题是,说样本量趋于是什么意思?对于简单的IID随机抽样,尺寸的样品n可以从大小的样品来获得n1通过附加另外的独立样品。对于LHS,我认为您无法执行此操作,因为该过程中已预先指定了样本数量。所以看来,你将不得不采取一连串的独立大小的LHS样品1,2,3,...

当样本量趋于还需要某种方式来解释极限中的“密集” 。密度似乎并没有保持在LHS以确定的方式例如,在两个维度上,你可以选择大小LHS样本序列1,2,3,...使得它们所有棒对角线的[0,1)2。因此,某种概率的定义似乎是必要的。让,对于每nXn=(Xn1,Xn2,...,Xnn)是根据某种随机机制生成的大小为的样本n。假设对于不同的n,这些样本是独立的。然后,以限定渐近密度我们可能需要的是,对于每一个ϵ>0,并为每x在样品空间(假设为[0,1)d),我们有P(min1knXnkxϵ)0(为n)。

如果样品通过取获得Ñ从独立样本ù [ 0 1 d分布(“IID随机抽样”)然后P Ñ 1 ķ ÑX Ñ ķ - X ε = ñ Π ķ = 1个 P X ñ ķ - X εXnnU([0,1)d)其中 v ϵ是半径为 ϵ d维球的体积。因此可以肯定,IID随机采样是渐近密集的。

P(min1knXnkxϵ)=k=1nP(Xnkxϵ)(1vϵ2d)n0
vϵdϵ

现在考虑通过LHS获得样本的情况。在这些定理10.1 笔记状态样品的成员X Ñ均分布为ù [ 0 1 d。然而,(虽然独立为不同的尺寸)在LHS的定义中使用的置换诱导样品(成员之间的一些依赖性X Ñ ķķ Ñ),因此它是渐近密度属性保存不太明显。XnXnU([0,1)d)Xnk,kn

固定X [ 0 1 d。限定P Ñ = P Ñ 1 ķ ÑX Ñ ķ - X ε 。我们想证明P n0。为此,我们可以在这些注释中使用命题10.3 ,这是拉丁超立方体采样的一种中心极限定理。定义f [ϵ>0x[0,1)dPn=P(min1knXnkxϵ)Pn0 ˚F ż = 1,如果 Ž是在半径的球 ε围绕 X ˚F Ž = 0否则。然后命题10.3告诉我们 Y n= f:[0,1]dRf(z)=1zϵxf(z)=0其中μ= [ 0 1 ] d ˚FżdŽ μ大号ħ 小号 = 1Yn:=n(μ^LHSμ)dN(0,Σ)μ=[0,1]df(z)dzμ^LHS=1ni=1nf(Xni)

。最终,足够大ň,我们将有- L>0n。所以,最终我们将有Pñ=PŸñ=-nμ<L。因此LIM SUPPÑLIM SUPPÝÑ<-大号=Φ - 大号Pn=P(Yn=nμ)P(Yn<L),其中Φ是标准普通cdf。由于L是任意的,因此根据需要Pn0lim supPnlim supP(Yn<L)=Φ(LΣ)ΦLPn0

这证明了iid随机采样和LHS的渐近密度(如上定义)。通俗地说,这意味着,给定的任何和任何X的样本空间,样品到达内的概率εX可以为您选择的样本量足够大,请进行尽可能接近1。通过将我们已经知道的信息应用于有限子集中的每个点,可以很容易地扩展渐近密度的概念,从而将其应用于样本空间的有限子集。更正式地说,这意味着我们可以显示:对于任何ε > 0和任何有限子集{ X 1Xϵxϵxϵ>0样品的空间,中号Ñ 1 Ĵ P Ñ 1 ķ ÑX Ñ ķ - X Ĵ< ε 1(如 Ñ )。{x1,...,xm}min1jmP(min1knXnkxj<ϵ)1n


我有两个问题:1)如果你只是有大小的样品其中ñ大,这是否改变了说法?2)拉丁超立方体样本可以在任何值范围内(不一定只是(0,1)),所以这也改变了答案吗?nn

此外,你会愿意解释为什么足够大,我们将有- n?我假定意味着对于大Ñ μ大号ħ 小号变为零,因为在分布它是一个Ñ0Σnμnμ^LHSN(0,Σ)

@RustyStatistician一切都是根据有限样本定义的,即但很大。我在末尾添加了一些其他解释来解释发生了什么。只要样本空间的大小是有限的,就可以轻松容纳其他范围的值(((0,1)并不特殊))。n<
S. Catterall恢复莫妮卡

您能否详细说明一下简短答案?

@RustyStatistician简短答案是我的长答案的非正式摘要,我想您会同意的,它已经非常详尽了!因此,如上所述,如果您可以用更正式的术语来重写问题,这样我知道我的尝试答案是否正确(就回答您要解决的问题而言),将是一个很好的选择。
S. Catterall恢复莫妮卡(Monica),2015年

3

我不确定这是否正是您想要的,但是这里有。

你LHS-采样从点[ 0 1 d,说。我们将非正式地争论,对于任何ϵ > 0,每个维度中大小为ϵ的空(超)立方体的预期数量将随着n 变为零。n[0,1)dϵ>0ϵn

使得如果我们将[ 0 1 d均匀地流入d微小长方体- microcuboids,说-的宽度1 /然后每宽度- ε长方体含有至少一个microcuboid。因此,如果我们可以证明未采样的微立方体的预期数量为零(在n 的极限内),那么我们就完成了。(请注意,我们的立方排列在规则的网格上,但是ϵ-立方可以位于任何位置。)m=2/ϵ[0,1)dmd1/mϵnϵ

的完全丢失与所述第一采样点的给定microcuboid的机会是,独立的Ñ,作为第一组的d样品坐标(第一样本点)可以自由选择。鉴于前几个采样点都错过了该微立方体,平均而言,后续采样点将更难错过,因此所有n个点丢失的机会小于1 - m - dn1mdndn(1md)n

在microcuboids [ 0 1 d,使被错过由上面所限定的预期数d1 - - dñ -因为期望添加-这是在限制作为零Ñ md[0,1)dmd(1md)nn


更新 ...

(1)这里的示出了如何,对于给定画面,可以挑足够大的,使得× “microcuboids”(正方形在该2维图示)的网格保证具有内的至少一个microcuboid 任何ε × ϵ大小的区域。我已经显示了两个“随机”选择的ϵ × ϵ区域,并用紫色将它们包含的两个微立方体着色为紫色。ϵmm×m ϵ×ϵϵ×ϵ

在此处输入图片说明

(2)考虑任何特定的微立方。它的体积为,是整个空间的分数m - d。因此,第一个LHS样本(这是唯一完全自由选择的样本)将以1 - m - d的概率错过它。唯一重要的事实是,这是一个小于1的固定值(我们让n ,但保持m不变)。(1/m)dmd1mdnm1

(3)现在考虑采样点的数量。我在图中说明了n = 6 m。LHS在这些超级微小的n 1 × n 1大小的“微长方体”(如果愿意)中工作,而不是较大的m 1 × m 1大小的“微长方体”,但实际上这对证明。证明只需要挥舞一下手,即随着您丢掉更多点,平均而言,它逐渐变得越来越难,以使其始终缺少给定的微立方体。所以这是1 m的概率n>mn=6mn1×n1m1×m1用于第一LHS点丢失,但小于1-- dñ对于所有Ñ它们缺少的:这是在极限零作为ñ→交通1md(1md)n nn

(4)所有这些ε都是很好的证明,但对您的直觉却不利。因此,这里有几张图片,说明了n = 50个采样点,并突出显示了最大的空白矩形区域。(该网格是LHS采样网格-前面提到的“纳米颗粒”。)(在某种模糊的直觉上)应该“显而易见”,随着采样点数n的增加,最大的空白区域将缩小为任意小的尺寸。n=10n=50n

在此处输入图片说明


[0,1)

是的,对于任何有限的尺寸。现在,我已经修正了证明,这应该更清楚了。
Creosote 2015年

是否可以给出该证明的一维甚至二维图像?我很迷茫。

做完了 如有需要,很高兴提出其他问题。
Creosote 2015年

很好,谢谢!这无疑确实有助于直觉。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.