有关统计随机性的一些问题


15

维基百科的统计数据来看

全局随机性和局部随机性是不同的。大多数随机性的概念都是全局性的,因为它们是基于“从长远来看”序列看起来是真正随机的,即使某些子序列看起来不是随机的。例如,在一个足够长的“真正”随机数字序列中,很可能会有很长的零序列,但总的来说,该序列可能是随机的。局部随机性是指这样的想法,即可能存在最小序列长度,其中随机分布是近似的。相同数字的长距离延伸,即使是由“真正的”随机过程生成的数字,也将减少样本的“局部随机性”(对于10,000位数的序列,它可能仅是局部随机的;小于1,000的序列可能不会出现随机性例如)。

因此没有证明表现出模式的序列不是统计上随机的。根据Ramsey理论的原理,足够大的物体必须包含给定的子结构(“不可能完全混乱”)。

我不太明白这两个句子的含义。

  1. 第一句话是否意味着某事物使序列在较长的长度上局部随机,而不是在较短的长度上局部随机?

    括号内的示例如何工作?

  2. 第二句话是否意味着不能证明具有某种模式的序列不是统计上随机的?为什么?

谢谢


1
好问题。我觉得这段文字有些令人困惑。我曾想过,一个序列是否随机与它的产生方式有关。不是结果。我怀疑这里存在语言问题-对我来说,随机意味着它是如何产生的;对于常识(也许思维方式不太清晰的哲学家?),它是关于似乎无序的事情吗?
彼得·埃利斯

3
@Peter,如果仅参考生成机制,甚至定义随机性都可能会很困难。归根结底,因为随机序列的所有效用都取决于它们包含的数字,而不是取决于这些数字的产生方式,所以必须有一种纯粹根据序列来定义和测试随机性的方法,您认为吗?
ub

1
当然,我同意您可以从结果中测试随机性-证明随机性的合理性,而不希望证明它。我可能需要对基于生成的定义的哲学挑战做更多的阅读和思考。
彼得·埃利斯

我认为随机性只是未知数的代名词。我也觉得这句话很古怪
概率

Answers:


15

这个概念可以通过一些可执行代码很好地说明。 我们首先R使用一个好的伪随机数生成器创建10,000个零和一的序列:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

这通过了一些基本的随机数测试。 例如,t检验均值比较,具有的p值40.09%,这使我们能够接受的假设零和同样有可能。1/240.09

从这些数字中,我们继续提取从5081st值开始的连续值的子序列:1000

x0 <- x[1:1000 + 5080]

如果它们看起来是随机的,它们还应该通过相同的随机数测试。例如,让我们测试一下它们的均值是否为1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

低p值(小于1%)强烈地暗示均值显著大于大于。实际上,此子序列的累积总和具有强烈的上升趋势:1/2

> plot(cumsum(x0-1/2))

随机漫步?

那不是随机行为!

将原始序列(绘制为累积总和)与此子序列进行比较,可以发现发生了什么:

随机漫步

长序列确实表现得像一个随机游走(应有的样子),但是我提取的特定子序列包含相同长度的所有子序列中最长的向上上升。看来我也可以提取出其他表现出“非随机”行为的子序列,例如以为中心的子序列,其中连续出现约20 个子序列!9000


正如这些简单的分析所示,没有任何测试可以“证明”序列是随机出现的。我们所能做的就是测试序列是否偏离预期的随机序列提供证据的行为,以至于他们随机的。 这就是电池随机数测试的工作方式:它们寻找在随机数序列中极不可能出现的模式。很长一段时间,它们每次都会使我们得出结论,一个真正随机的数字序列不会出现随机现象:我们会拒绝尝试其他方法。

从长远来看,尽管就像我们都死了一样,任何真正的随机数生成器都会生成1000个数字的每个可能序列,并且它将无限次生成。从逻辑难题中解脱出来的是,我们将不得不等待很长时间才能出现这种明显的像差。


谢谢!一个相关的问题:在测试某些方法生成的伪随机数的随机性时,随机性是否意味着均匀分布?换句话说,随机性测试是否仅用于测试均匀分布?我之所以这样问,是因为从我的角度来看,那些偏向更偏远的分布似乎不太随机。
蒂姆(Tim)

@Tim:不,有许多关于高斯随机性的常见检验,应该为任何分布构造检验。
naught101 '09

1
[0,1)

2
我几乎可以“看”答案的顶部并说“ Whuber” :)非常好!
博士

2

此摘录使用术语“局部随机性”和“全局随机性”来区分有限数量的随机变量样本可能发生的情况和随机变量的概率分布或期望值​​。

xi{0,1}θθlimn1ni=1nxi=θ

[0,1][a,b]0a<b1θ

这里没有新内容。

n

因此,我不会因为思考此摘要而消耗过多的脑细胞。从数学上讲,它不是那么精确,并且实际上对随机性具有误导性。

根据评论进行编辑:@kjetilbhalvorsen对您的评论+1以获取历史知识。但是,我仍然认为这些术语的价值是有限的并且具有误导性。您正在描述的表格似乎具有误导性含义,例如,样本的均值与实际期望值相差甚远,或者可能是不可能的(但肯定有可能是较长的重复0序列(在我的Bernoulli示例中))较少的随机性(通过说他们没有表现出这种假的“局部随机性”)。对于正在萌芽的统计学家,我再也想不出任何误导!


尽管“整体随机性”看起来很特殊,但“局部随机性”至少有20年的历史。例如,参见isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf
Whuber

nn

2
我记得有时我读过这样的书:当人们出版带有“随机数”表的书用于模拟,实验等时,其中一些将表的某些部分标记为适合在小型模拟中使用(显示“本地”随机性”)和其他只应用于较大模拟的部分(表现为“全局随机性”),因此这些概念似乎指向了一些有价值的东西!
kjetil b halvorsen 2012年

1
抱歉,我不记得在哪里读过这篇文章。但这几乎是显而易见的:除了定义随机性的哲学问题之外,如果您有一个非常小的模拟,其中需要1000个随机数,并且高质量的随机数生成器为您提供1000个零,那么您会做什么?尽管这样的出现是可能的,而且确实是按照“真正随机”的顺序发生的,但您的模拟却被毁了!
kjetil b halvorsen 2012年

1
谢谢大家,我的谴责也许太苛刻了。我将对此语言进行一些更改。
克里斯·A

-1

我认为Wikipedia帖子的作者误解了随机性。是的,可能会有一些延伸看起来不是随机的,但是如果创建序列的过程确实是随机的,那么输出也必须是随机的。如果某些序列似乎是非随机的,那就是读者的错误认识(即,人类被设计用来寻找模式)。我们在夜空中看到北斗七星和猎户座等的能力没有证据表明恒星的模式是非随机的。我同意随机性经常表现为非随机性。如果一个过程为短序列生成真正的非随机模式,则它不是随机过程。

我认为该过程不会因样本数量不同而发生变化。您增加了样本量,也增加了我们看到随机序列对我们来说似乎是非随机的可能性。如果我们有20%的随机观测结果有10%的可能性,将观测总数增加到10000将增加我们在某处看到非随机性的可能性。


2
恐怕“如果一个过程为短序列生成真正的非随机模式,那不是一个随机过程”,这是完全错误的。例如,在一枚普通硬币的任何100次翻转中,我们都希望连续观察到6个头或6个尾巴,这几乎是任何人对“随机性”的理解,这是“ [短序列]的真正非随机模式”。 ” 我怀疑您是要写一些需要更仔细限定的内容,例如在“短序列”之前应用“全部”。
ub

真?我本以为,由于人们期望从随机数生成器中看到尾巴的字符串,所以当我们看到它时,我们应该不会感到惊讶。为什么认为它是非随机的?如果一个数字生成器执行了100次翻转,并且有目的地避免连续出现4个或更多的头或尾,那么它看起来比真正的随机过程更具随机性,但实际上它是非随机的。缺乏随机性的幼稚观点是缺乏所有模式-但这将是非随机的。
P auritus

您的评论是正确的,但您的回答中的论述不清楚,甚至与此矛盾。考虑更精确地解释您的意思,例如,生成“短序列的真正非随机模式”,或“看到非随机性”的含义。
ub

我认为没有矛盾。您似乎认为随机生成器会创建非随机模式。那是矛盾。您在争论真正的随机过程将生成非随机观察值。您所描述的是称为“聚类错觉”的某种错形,这是从随机分布中错误地感知聚类的趋势。我要说的是,如果一个过程创建了非随机观测值,那么它就不是随机的。您认为您期望一个随机过程来创建一串非随机观察值,但您称其为非随机。Apophenia的经典例子。
P auritus

1
很难与一个虚假陈述自己立场的对话者进行对话,所以我会屈服于这一对话。抱歉。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.