这个离散分布有名称吗?


21

这个离散分布有名称吗?对于i1...N

f(i)=1Nj=iN1j

我从以下内容中发现了此分布:我有按实用程序功能排列的项目的列表。我想随机选择其中一项,偏向列表的开头。因此,我首先均匀地选择介于1和N之间的索引j。然后,我在索引1和j之间选择一个项目。我相信这个过程会导致上述分布。Njñj


2
这不是分布:未规范化。
ub

@whuber起初我是这么认为的(并在意识到自己被误解并删除评论之前发表了评论),但事实证明我误解了定义。除非我有其他误解,否则它是归一化的概率质量函数。
Glen_b-恢复莫妮卡

4
已标准化。1/1将恰好出现在总和中一次(将出现在f(1)中)。1/2将恰好出现两次(在f(1)和f(2)中)。因此,所有这些和的总和将为N,归一化常数显示为1 / N。签出。
rcorty

1
更重要的是,我不知道这个发行版是什么。我也不知道您描述的过程如何导致此发行版。我曾经想到的是,这听起来像是一个折断过程的离散版本,非常容易上手。
rcorty

@Glen_b谢谢。我正在手机上阅读此内容,但无法清晰呈现f
ub

Answers:


30

你具有的负log分布,即,它的支持是分布的离散版本和其概率密度函数为˚F = - 日志[0,1]f(t)=logt

看到这,我要重新定义随机变量采取设定值,而不是{ 0 1 2 ... ñ }并调用所得分配Ť。那我的主张是{0,1/N,2/N,,1}{0,1,2,,N}T

Pr(T=tN)1Nlog(tN)

tN,t保持(近似)恒定。 tN

首先,通过一个小小的模拟实验来证明这种收敛。这是您的发行版中采样器的一个小实现:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

这是从您的分布中获取的大量样本的直方图:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

在此处输入图片说明

这是对数pdf覆盖:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

在此处输入图片说明

要了解为什么会发生这种收敛,请从您的表达式开始

P[RŤ=Ťñ=1个ñĴ=Ťñ1个Ĵ

并乘以ñ

P[RŤ=Ťñ=1个ñĴ=ŤññĴ1个ñ

现在求和是函数的黎曼和GX=1个XŤñ1个ñ

P[RŤ=Ťñ1个ñŤñ1个1个XdX=-1个ñ日志Ťñ

这是我想表达的意思。


不客气 这是一个很好的问题,解决这个问题我感到很开心。
马修·德鲁里

6

这似乎与Whitworth分布有关。(我不相信这是惠特沃思分布,因为如果我没记错的话,那就是一组有序值的分布,但它似乎与之相关,并且依赖于相同的求和方案。)

有关惠特沃思(和大量参考文献)的一些讨论,请参见

Anthony Lawrance和Robert Marks,(2008年)
“资源有限的行业中的公司规模分布”,《
应用经济学》,第1卷。40,第12期,第1595-1607页

(有看起来是一个工作文件的版本在这里

另见

南希·盖勒(Nancy L Geller),(1979年)
对惠特沃思分布的意义的检验,
美国信息科学学报,第30卷第4期,第229-231页


2
为了使这个答案自成一体,您能否提供惠特沃思分布的定义,或者也许提供一些有关您所看到的联系的解释?
ub

@whuber是的,它应该是目前的评论。我将在其中编辑一些细节,但这将导致更长的时间。
Glen_b-恢复莫妮卡

只需某种定义就可以了。
ub

谢谢,这是可以理解的,但是那将是结果。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.