子集上的分布?


9

我想知道整数子集上是否有任何标准分布。等效地,我们可以将其表示为二进制结果的长度向量上的分布,例如,如果则对应于向量。{1个2Ĵ}{1,2,...,J}ĴJĴ=5J=5{1个35}{1,3,5}1个01个01个(1,0,1,0,1)

理想情况下,我要寻找的是分布,它来自以有限维参数索引的族,该分布将以这样的方式分布其质量,即两个二元向量和具有相似的它们“靠近”在一起的概率,即和具有相似的概率。确实,我希望能做的是在上放置一个先验值,这样,如果我知道相当大,则相对于远离向量可能很大。νθνθ()θθ[R1个r1[R2r2[R1个=001个01个r1=(0,0,1,0,1)[R2=001个1个1个r2=(0,0,1,1,1)θθνθ[R1个νθ(r1)νθ[R2νθ(r2)[R1个r1

我想到的一种策略是在上放置度量或其他色散度量,然后取或类似的东西。一个明确的例子是与正态分布类似。很好,但是我希望有一些标准的并且适合贝叶斯分析的方法。我不能写下标准化常数。dθdθ{01个}Ĵ{0,1}Jνθ[R经验值-dθ[Rμνθ(r)exp(dθ(r,μ))经验值{-[R-μ2/2σ2}exp{rμ2/(2σ2)}


对子集进行采样是调查方法中的一个基本问题。
斯特凡·洛朗

@Stephane当然可以,但是我认为我的问题有所不同,因为我还有一些其他想要的结构,我希望我的分布反映出来。也许以子集的形式来表达这个问题是一个坏主意,因为我对距离的理解模糊了。
家伙

您是不是要写“ ...然后可能很小 ...”?就归一化常数而言,考虑将汉明距离用于度量:对于位置范围的分布族,您可以将该常数计算为仅项的总和。此外,所有满足您条件的此类族只能用离散参数(用于位置)和连续参数来描述。vθ[R2vθ(r2)Ĵ+1个J+1ĴJĴJ
ub

@whuber不,我的意思是大。我希望将其质量分布在彼此靠近的点周围。用一个超立方体的顶点上的分布来表达这个问题可能更合适。我曾考虑过汉明距离(在我看来与相同);我可能想将其调整为,我想可能必须做一些MCMC才能从这样的分布中采样。νθνθ()大号1个L1|[R一世-μ一世σ一世|riμiσi
家伙

哦,我明白了。但这不是你最初说的。例如,在表征中,如果大,并且是远离的向量集合,而是不在任何向量,则也必须“可能”很大。但是“不远处”和“接近处”的含义并不完全相同。重新定义条件,就像您在评论中所做的那样,更简单-而且内部更一致。但是,不,您不需要MCMC即可根据汉明距离从位置比例分布中进行采样:有更有效的方法。ν[R1个ν(r1)[RR[R1个r1[R2r2[RRν[R2ν(r2)
ub

Answers:


6

您可能更喜欢基于汉明距离的位置族,因为它们的丰富性,灵活性和可计算性。


符号和定义

回想一下,在具有基的自由有限维模块,两个向量之间的汉明距离和为多少地方这里。VVË1个Ë2ËĴË1个Ë2ËĴ δHδHv=v1个Ë1个++vĴËĴv =v1个Ë1个+ +vĴËĴw=w1个Ë1个++wĴËĴw =w1个Ë1个+ +wĴËĴ一世一世v一世w一世v一世w一世

给定任何原点,汉明距离将划分为球面,,其中。当接地环具有元素时,具有元素,而具有元素。(这是从观察到元素与恰好在第地方不同之后得出的-其中有v0Vv0VVV小号一世v0小号一世v0一世=01个Ĵ= 0 1 ... Ĵ小号一世v0={wV | δHwv0=一世}小号一世v0= { 瓦特V | δHwv0= i }ññVVñĴñĴ小号一世v小号一世v(Ji)(n1)i(Ji)(n1)iSi(v)Si(v)vvii(Ji)(Ji)可能性- 每个地方都有个值的选择。)n1n1

仿射翻译自然会根据其分布来分配位置族。具体地,当是在任何分配(这意味着很少超过,所有,和)和是任意元素,则也是分布哪里VVffVVf:V[0,1]f:V[0,1]f(v)0f(v)0vVvVvVf(v)=1vVf(v)=1wwVVf(w)f(w)

f(w)(v)=f(vw)

f(w)(v)=f(vw)

对于所有。一个地点家庭分布是这样的作用下不变:意味着所有。vVvV ΩΩfΩfΩf(v)Ωf(v)ΩvVvV

施工

这使我们能够通过在一个固定向量指定其形状来定义潜在有趣且有用的分布族,为方便起见,我将其设为,并在的作用下转换这些“生成分布” 以获得完整族。为了获得在附近点应具有可比值的所需属性,只需要求所有生成分布的属性即可。vv0=(0,0,,0)0=(0,0,,0)VVΩΩff

为了了解其工作原理,让我们构造所有分布的位置族,这些分布随距离的增加而减小。因为只有汉明距离是可能的,所以请考虑非负实数 =任何递减序列。组J+1J+1aa0a0a1aJ00a0a1aJ0

A=Ji=0(n1)i(Ji)ai

A=i=0J(n1)i(Ji)ai

和定义该函数通过fa:V[0,1]fa:V[0,1]

fa(v)=aδH(0,v)A.

fa(v)=aδH(0,v)A.

然后,可以直接检查的是,是上的分布。此外,当且仅当为的正数倍时,(作为向量))。因此,如果愿意,我们可以将标准化为。fafaVVfa=fafa=faaaaaRJ+1RJ+1aaa0=1a0=1

因此,此构造为所有随汉明距离减小的位置不变分布提供了明确的参数化:对于某些序列任何此类分布的形式均为和某些向量。f(v)af(v)aa=1a1a2aJ0a=1a1a2aJ0vVvV

该参数化可以方便地指定先验:将它们分解为位置的先验和形状的先验。(当然,可以考虑一组更大的先验条件,这些先验条件是位置和形状而不是独立的,但这将是一项更为复杂的工作。)vvaa

产生随机值

从进行采样的一种方法 是分阶段进行,将其分解为球面半径上的分布,并将每个球面上的条件作为另一分布:f(v)af(v)a

  1. 从概率给出的上的离散分布绘制索引,其中的定义如前。ii{0,1,,J}{0,1,,J}(Ji)(n1)iai/A(Ji)(n1)iai/AAA

  2. 索引对应于向量集,恰好在地方与不同。因此,从可能的子集中选择放置的位置,并赋予每个相等的概率。(这仅仅是一个样品的下标出来无需更换。)我们的这个子集的地方写。iivviiii(Ji)(Ji)iiJJ iiII

  3. 通过为所有独立地从不等于的标量统一选择一个值来绘制元素,否则设置。等效地,当时,从非零标量中均匀随机选择,否则设置,从而创建向量。设置。wwwjwjvjvjjIjIwj=vjwj=vjuuujujjIjIuj=0uj=0w=v+uw=v+u

在二进制情况下,不需要步骤3。


这是一个R实现示例。

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

作为其用法的示例:

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

从分布中抽出 iid元素花费了秒,其中,(二进制情况),和呈指数下降。0.20.2104104f(v)af(v)aJ=10J=10n=2n=2v=(1,1,,1)v=(1,1,,1)a=(211,210,,21)a=(211,210,,21)

(此算法不需要递减;因此,它将从任何位置族生成随机变量,而不仅仅是单峰。)aa


谢谢你!在这种情况下,汉明距离仅为,限于立方顶点;在这种情况下,汉明距离是各向同性的。摆脱这一点我想使这些事情变得复杂,因为我的距离度量值有不同值?关于此有任何一般性评论吗?L1L1RJJ
家伙

是:距离函数的选择将取决于代表什么。因为问题是抽象提出的,所以我们对于就什么是好的选择形成意见真的没有什么可做的。汉明距离适用于标称值,也许在其他情况下也适用,但是当集合具有固有的距离感时,其他距离可能会更好。在的二进制情况下,很难概括汉明距离:它们已经很普遍了。{1,2,,n}{1,2,,n}n=2
Whuber

1

来自k确定点过程的样本对子集上的分布进行建模,该分布鼓励了多样性,因此相似项不太可能在样本中一起出现。请参阅Ben Taskar的Alex Kulesza进行的K确定点过程采样。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.