拉丁超立方采样渐近线

我正在尝试为我正在研究的问题构建证明，而我所做的一个假设是，我从中采样的点集在整个空间中都是密集的。实际上，我使用拉丁超立方体采样来获取整个采样空间中的点。我想知道的是，如果让您的样本大小趋于那么拉丁超立方体样本在整个空间中是否密集？如果是这样，将不胜感激对此事实的引用。 $\infty$

— 凯捷蒂尔·哈沃森
source

是的，假设是连续分布，因为对于任何您都可以将除数设置为使得所有每个变量区间的宽度都。因此，您选择的任意点周围的宽度超立方体都严格包含至少一个超间隔（即样本量）。（评论，而不是答案，因为据我所知，关于LHS的所有信息都来自十分钟前的Wikipedia ...）

ϵ > 0

$\epsilon>0$

< ϵ / 2

$<\epsilon/2$

ϵ

$\epsilon$

— Creosote 2015年

的确如此，但我认为它不能轻易用于显示大型拉丁超立方体样品的密度。这样做的原因是LHS中的采样点不是独立的：特定超间隔内的采样点的存在会阻止其他任何采样点出现在同一行/列中（或与此无关的任何多维术语）。

— S. Catterall恢复莫妮卡（Monica）

@Creosote您认为您可以将答案进一步形式化吗？

@RustyStatistician，请根据您的证明要求以正式的方式扩大您的空缺职位，以解释“我要从中采样的点集在整个空间中都是密集的”的意思。谢谢。

— Creosote

如果我采用

n

$n$ 太大的初始拉丁超立方体样品，我们认为它是不确定的，那么样品是否稠密？

Answers:

简短的回答：是的，以概率的方式。有可能表明，在给定距离 $\epsilon>0$ ，样本空间的任何有限子集 $\{x_1,…,x_m\}$ 和任何规定的“公差” $\delta>0$ ，对于适当大的样本量，我们可以确定有一个距离内的采样点的概率 $\epsilon$ 的 $x_i$ 是 $>1-\delta$ 所有 $i=1,…,m$ 。

长答案：我不知道任何直接相关的引用（但请参见下文）。有关拉丁文超立方采样（LHS）的大多数文献都涉及其方差减少特性。另一个问题是，说样本量趋于是什么意思 $\infty$ ？对于简单的IID随机抽样，尺寸的样品 $n$ 可以从大小的样品来获得 $n-1$ 通过附加另外的独立样品。对于LHS，我认为您无法执行此操作，因为该过程中已预先指定了样本数量。所以看来，你将不得不采取一连串的独立大小的LHS样品 $1,2,3,...$ 。

当样本量趋于还需要某种方式来解释极限中的“密集” $\infty$ 。密度似乎并没有保持在LHS以确定的方式例如，在两个维度上，你可以选择大小LHS样本序列 $1,2,3,...$ 使得它们所有棒对角线的 $[0,1)^2$ 。因此，某种概率的定义似乎是必要的。让，对于每 $n$ ， $X_n=(X_{n1},X_{n2},...,X_{nn})$ 是根据某种随机机制生成的大小为的样本 $n$ 。假设对于不同的 $n$ ，这些样本是独立的。然后，以限定渐近密度我们可能需要的是，对于每一个 $\epsilon>0$ ，并为每 $x$ 在样品空间（假设为 $[0,1)^d$ ），我们有 $P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)\to0$ （为 $n\to \infty$ ）。

如果样品通过取获得从独立样本分布（“IID随机抽样”）然后 $X_n$ $n$ $U([0,1)^d)$ 其中是半径为的维球的体积。因此可以肯定，IID随机采样是渐近密集的。

P (m i n_{1 \leq k \leq n} ‖ X_{n k} - x ‖ \geq ϵ) = \prod_{k = 1}^{n} P (‖ X_{n k} - x ‖ \geq ϵ) \leq (1 - v_{ϵ} 2^{- d})^{n} \to 0

$P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)=\prod_{k=1}^n P(\|X_{nk}-x\|\geq \epsilon)\leq (1-v_\epsilon 2^{-d})^n \to 0$

v_{ϵ}

$v_\epsilon$

d

$d$

ϵ

$\epsilon$

现在考虑通过LHS获得样本的情况。在这些定理10.1 笔记状态样品的成员均分布为。然而，（虽然独立为不同的尺寸）在LHS的定义中使用的置换诱导样品（成员之间的一些依赖性），因此它是渐近密度属性保存不太明显。 $X_n$ $X_n$ $U([0,1)^d)$ $X_{nk}, k\leq n$

固定和。限定。我们想证明。为此，我们可以在这些注释中使用命题10.3 ，这是拉丁超立方体采样的一种中心极限定理。定义 $\epsilon\gt 0$ $x\in [0,1)^d$ $P_n=P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)$ $P_n\to 0$ 由，如果是在半径的球围绕，否则。然后命题10.3告诉我们 $f:[0,1]^d\to\mathbb{R}$ $f(z)=1$ $z$ $\epsilon$ $x$ $f(z)=0$ 其中和 $Y_n:=\sqrt n (\hat{\mu}_{LHS}-\mu)\xrightarrow{d} N(0,\Sigma)$ $\mu=\int_{[0,1]^d} f(z) dz$ 。 $\hat{\mu}_{LHS}=\frac{1}{n}\sum_{i=1}^n f(X_{ni})$

取。最终，足够大，我们将有 $L>0$ $n$ 。所以，最终我们将有 $-\sqrt n\mu\lt -L$ 。因此 $P_n=P(Y_n=-\sqrt n \mu)\le P(Y_n\lt -L)$ ，其中是标准普通cdf。由于是任意的，因此根据需要。 $\limsup P_n\le \limsup P(Y_n\lt -L)=\Phi(\frac{-L}{\sqrt\Sigma})$ $\Phi$ $L$ $P_n\to 0$

这证明了iid随机采样和LHS的渐近密度（如上定义）。通俗地说，这意味着，给定的任何和任何的样本空间，样品到达内的概率的可以为您选择的样本量足够大，请进行尽可能接近1。通过将我们已经知道的信息应用于有限子集中的每个点，可以很容易地扩展渐近密度的概念，从而将其应用于样本空间的有限子集。更正式地说，这意味着我们可以显示：对于任何和任何有限子集 $\epsilon$ $x$ $\epsilon$ $x$ $\epsilon>0$ 样品的空间，（如）。 $\{x_1,...,x_m\}$ $min_{1\leq j\leq m} P(min_{1\leq k\leq n} \|X_{nk}-x_j\|\lt \epsilon)\to 1$ $n\to\infty$

— S. Catterall恢复莫妮卡
source

我有两个问题：1）如果你只是有大小的样品

其中

大，这是否改变了说法？2）拉丁超立方体样本可以在任何值范围内（不一定只是（0,1）），所以这也改变了答案吗？

n

$n$

n

$n$

此外，你会愿意解释为什么足够大

，我们将有

n

$n$

？我假定意味着对于大

，

变为零，因为在分布它是一个

？

- \sqrt{n} μ

$-\sqrt{n}\mu$

n

$n$

{\hat{μ}}_{L H S}

$\hat\mu_{LHS}$

N (0, Σ)

$N(0,\Sigma)$

@RustyStatistician一切都是根据有限样本定义的，即

但很大。我在末尾添加了一些其他解释来解释发生了什么。只要样本空间的大小是有限的，就可以轻松容纳其他范围的值（（（0,1）并不特殊））。

n < \infty

$n\lt\infty$

— S. Catterall恢复莫妮卡

您能否详细说明一下简短答案？

@RustyStatistician简短答案是我的长答案的非正式摘要，我想您会同意的，它已经非常详尽了！因此，如上所述，如果您可以用更正式的术语来重写问题，这样我知道我的尝试答案是否正确（就回答您要解决的问题而言），将是一个很好的选择。

— S. Catterall恢复莫妮卡（Monica），2015年

我不确定这是否正是您想要的，但是这里有。

你LHS-采样从点，说。我们将非正式地争论，对于任何，每个维度中大小为的空（超）立方体的预期数量将随着变为零。 $n$ $[0,1)^d$ $\epsilon>0$ $\epsilon$ $n\to\infty$

让使得如果我们将均匀地流入微小长方体- microcuboids，说-的宽度然后每宽度- 长方体含有至少一个microcuboid。因此，如果我们可以证明未采样的微立方体的预期数量为零（在的极限内），那么我们就完成了。（请注意，我们的微立方排列在规则的网格上，但是立方可以位于任何位置。） $m=\lceil 2/\epsilon \rceil$ $[0,1)^d$ $m^d$ $1/m$ $\epsilon$ $n\to\infty$ $\epsilon$

的完全丢失与所述第一采样点的给定microcuboid的机会是，独立的，作为第一组的样品坐标（第一样本点）可以自由选择。鉴于前几个采样点都错过了该微立方体，平均而言，后续采样点将更难错过，因此所有个点丢失的机会小于。 $1-m^{-d}$ $n$ $d$ $n$ $(1-m^{-d})^n$

有在microcuboids ，使被错过由上面所限定的预期数 -因为期望添加-这是在限制作为零。 $m^d$ $[0,1)^d$ $m^d(1-m^{-d})^n$ $n\to\infty$

更新 ...

（1）这里的示出了如何，对于给定画面，可以挑足够大的，使得 “microcuboids”（正方形在该2维图示）的网格保证具有内的至少一个microcuboid 任何大小的区域。我已经显示了两个“随机”选择的区域，并用紫色将它们包含的两个微立方体着色为紫色。 $\epsilon$ $m$ $m\times m$ $\epsilon\times\epsilon$ $\epsilon\times\epsilon$

（2）考虑任何特定的微立方。它的体积为，是整个空间的分数。因此，第一个LHS样本（这是唯一完全自由选择的样本）将以概率错过它。唯一重要的事实是，这是一个小于的固定值（我们让，但保持不变）。 $(1/m)^d$ $m^{-d}$ $1-m^{-d}$ $n\to\infty$ $m$ $1$

（3）现在考虑采样点的数量。我在图中说明了。LHS在这些超级微小的大小的“微长方体”（如果愿意）中工作，而不是较大的大小的“微长方体”，但实际上这对证明。证明只需要挥舞一下手，即随着您丢掉更多点，平均而言，它逐渐变得越来越难，以使其始终缺少给定的微立方体。所以这是的概率 $n>m$ $n=6m$ $n^{-1}\times n^{-1}$ $m^{-1}\times m^{-1}$ 用于第一LHS点丢失，但小于比对于所有它们缺少的：这是在极限零作为。 $1-m^{-d}$ $(1-m^{-d})^n$ $n$ $n\to\infty$

（4）所有这些ε都是很好的证明，但对您的直觉却不利。因此，这里有几张图片，说明了和采样点，并突出显示了最大的空白矩形区域。（该网格是LHS采样网格-前面提到的“纳米颗粒”。）（在某种模糊的直觉上）应该“显而易见”，随着采样点数的增加，最大的空白区域将缩小为任意小的尺寸。。 $n=10$ $n=50$ $n\to\infty$

— 杂酚油
source

[0, 1)

$[0,1)$

是的，对于任何有限的尺寸。现在，我已经修正了证明，这应该更清楚了。

— Creosote 2015年

是否可以给出该证明的一维甚至二维图像？我很迷茫。

做完了如有需要，很高兴提出其他问题。

— Creosote 2015年

很好，谢谢！这无疑确实有助于直觉。