我正在尝试为我正在研究的问题构建证明,而我所做的一个假设是,我从中采样的点集在整个空间中都是密集的。实际上,我使用拉丁超立方体采样来获取整个采样空间中的点。我想知道的是,如果让您的样本大小趋于那么拉丁超立方体样本在整个空间中是否密集?如果是这样,将不胜感激对此事实的引用。
我正在尝试为我正在研究的问题构建证明,而我所做的一个假设是,我从中采样的点集在整个空间中都是密集的。实际上,我使用拉丁超立方体采样来获取整个采样空间中的点。我想知道的是,如果让您的样本大小趋于那么拉丁超立方体样本在整个空间中是否密集?如果是这样,将不胜感激对此事实的引用。
Answers:
简短的回答:是的,以概率的方式。有可能表明,在给定距离,样本空间的任何有限子集和任何规定的“公差” ,对于适当大的样本量,我们可以确定有一个距离内的采样点的概率的是所有。
长答案:我不知道任何直接相关的引用(但请参见下文)。有关拉丁文超立方采样(LHS)的大多数文献都涉及其方差减少特性。另一个问题是,说样本量趋于是什么意思?对于简单的IID随机抽样,尺寸的样品可以从大小的样品来获得通过附加另外的独立样品。对于LHS,我认为您无法执行此操作,因为该过程中已预先指定了样本数量。所以看来,你将不得不采取一连串的独立大小的LHS样品。
当样本量趋于还需要某种方式来解释极限中的“密集” 。密度似乎并没有保持在LHS以确定的方式例如,在两个维度上,你可以选择大小LHS样本序列使得它们所有棒对角线的。因此,某种概率的定义似乎是必要的。让,对于每,是根据某种随机机制生成的大小为的样本。假设对于不同的,这些样本是独立的。然后,以限定渐近密度我们可能需要的是,对于每一个,并为每在样品空间(假设为),我们有(为)。
如果样品通过取获得Ñ从独立样本ù ([ 0 ,1 )d)分布(“IID随机抽样”)然后P (米我Ñ 1 ≤ ķ ≤ Ñ ‖ X Ñ ķ - X ‖ ≥ ε )= ñ Π ķ = 1个 P (‖ X ñ ķ - X ‖ ≥ ε其中 v ϵ是半径为 ϵ的 d维球的体积。因此可以肯定,IID随机采样是渐近密集的。
现在考虑通过LHS获得样本的情况。在这些定理10.1 笔记状态样品的成员X Ñ均分布为ù ([ 0 ,1 )d)。然而,(虽然独立为不同的尺寸)在LHS的定义中使用的置换诱导样品(成员之间的一些依赖性X Ñ ķ,ķ ≤ Ñ),因此它是渐近密度属性保存不太明显。
固定和X ∈ [ 0 ,1 )d。限定P Ñ = P (米我Ñ 1 ≤ ķ ≤ Ñ ‖ X Ñ ķ - X ‖ ≥ ε )。我们想证明P n → 0。为此,我们可以在这些注释中使用命题10.3 ,这是拉丁超立方体采样的一种中心极限定理。定义f :[由 ˚F (ż )= 1,如果 Ž是在半径的球 ε围绕 X, ˚F (Ž )= 0否则。然后命题10.3告诉我们 Y n:= √其中μ=∫ [ 0 ,1 ] d ˚F(ż)dŽ和 μ大号ħ 小号 = 1。
取。最终,足够大ň,我们将有- √。所以,最终我们将有Pñ=P(Ÿñ=- √。因此LIM SUPPÑ≤LIM SUPP(ÝÑ<-大号)=Φ( - 大号,其中Φ是标准普通cdf。由于L是任意的,因此根据需要Pn→0。
这证明了iid随机采样和LHS的渐近密度(如上定义)。通俗地说,这意味着,给定的任何和任何X的样本空间,样品到达内的概率ε的X可以为您选择的样本量足够大,请进行尽可能接近1。通过将我们已经知道的信息应用于有限子集中的每个点,可以很容易地扩展渐近密度的概念,从而将其应用于样本空间的有限子集。更正式地说,这意味着我们可以显示:对于任何ε > 0和任何有限子集{ X 1,。。。,X样品的空间,中号我Ñ 1 ≤ Ĵ ≤ 米 P (米我Ñ 1 ≤ ķ ≤ Ñ ‖ X Ñ ķ - X Ĵ ‖ < ε )→ 1(如 Ñ → ∞)。
我不确定这是否正是您想要的,但是这里有。
你LHS-采样从点[ 0 ,1 )d,说。我们将非正式地争论,对于任何ϵ > 0,每个维度中大小为ϵ的空(超)立方体的预期数量将随着n → ∞变为零。
让使得如果我们将[ 0 ,1 )d均匀地流入米d微小长方体- microcuboids,说-的宽度1 /米然后每宽度- ε长方体含有至少一个microcuboid。因此,如果我们可以证明未采样的微立方体的预期数量为零(在n → ∞的极限内),那么我们就完成了。(请注意,我们的微立方排列在规则的网格上,但是ϵ-立方可以位于任何位置。)
的完全丢失与所述第一采样点的给定microcuboid的机会是,独立的Ñ,作为第一组的d样品坐标(第一样本点)可以自由选择。鉴于前几个采样点都错过了该微立方体,平均而言,后续采样点将更难错过,因此所有n个点丢失的机会小于(1 - m - d)n。
有在microcuboids [ 0 ,1 )d,使被错过由上面所限定的预期数米d(1 - 米- d)ñ -因为期望添加-这是在限制作为零Ñ → ∞。
更新 ...
(1)这里的示出了如何,对于给定画面,可以挑米足够大的,使得米× 米 “microcuboids”(正方形在该2维图示)的网格保证具有内的至少一个microcuboid 任何ε × ϵ大小的区域。我已经显示了两个“随机”选择的ϵ × ϵ区域,并用紫色将它们包含的两个微立方体着色为紫色。
(2)考虑任何特定的微立方。它的体积为,是整个空间的分数m - d。因此,第一个LHS样本(这是唯一完全自由选择的样本)将以1 - m - d的概率错过它。唯一重要的事实是,这是一个小于1的固定值(我们让n → ∞,但保持m不变)。
(3)现在考虑采样点的数量。我在图中说明了n = 6 m。LHS在这些超级微小的n − 1 × n − 1大小的“微长方体”(如果愿意)中工作,而不是较大的m − 1 × m − 1大小的“微长方体”,但实际上这对证明。证明只需要挥舞一下手,即随着您丢掉更多点,平均而言,它逐渐变得越来越难,以使其始终缺少给定的微立方体。所以这是1 − m的概率用于第一LHS点丢失,但小于比(1-米- d)ñ对于所有Ñ它们缺少的:这是在极限零作为ñ→交通∞。
(4)所有这些ε都是很好的证明,但对您的直觉却不利。因此,这里有几张图片,说明了和n = 50个采样点,并突出显示了最大的空白矩形区域。(该网格是LHS采样网格-前面提到的“纳米颗粒”。)(在某种模糊的直觉上)应该“显而易见”,随着采样点数n的增加,最大的空白区域将缩小为任意小的尺寸。→ ∞。