计算机科学 randomness

3

Mersenne Twister被广泛认为是很好的。哎呀，CPython消息人士说，它“是现有的经过最广泛测试的生成器之一”。但是，这是什么意思？当被要求列出该生成器的属性时，我所能提供的大多数内容都是不好的：它是庞大而僵化的（例如，无搜索或多个流），尽管状态规模庞大，但它未能通过标准的统计测试，它在0左右有严重问题，表明它对自己的随机性很差，不太快等等。与诸如XorShift *的简单RNG相比，它也无可避免地变得复杂。因此，我寻找一些信息，以了解为什么有人认为这很好。原始论文对“超天文学”时期和623维均匀分布发表了很多评论，他说在许多已知的测量方法中，基于较高尺寸均匀性的测试（如下面所述的光谱测试（参见Knuth [1981]）和k分布测试）被认为是最强的。但是，对于此属性，发电机会被足够长的计数器打败！这没有评论本地分布，这是您实际上在生成器中关心的（尽管“本地”可能意味着各种事情）。甚至CSPRNG都不在意这么长时间，因为这并不重要。论文中有很多数学，但据我所知，这实际上与随机性无关。几乎所有对此的提及都会迅速跳回这些原始的，基本上无用的主张。似乎人们以牺牲较旧，更可靠的技术为代价而跳上了潮流。例如，如果您将LCG中的单词数增加到3（比Mersenne Twister的“仅624”少得多）并在每次通过时输出最高单词，则它会通过BigCrush（TestU01测试套件的更难部分）），尽管Twister失败了（PCG纸，图2）。鉴于此，以及证据不足，我能够在支持梅森倍捻机的发现，是什么做的原因关注过其他的选择青睐呢？这也不是纯粹的历史。有人告诉我，Mersenne Twister在实践中至少比PCG random更为有效。但是用例是否如此清晰，以至于它们可以比我们的测试组合做得更好？一些谷歌搜索暗示他们可能不是。简而言之，我想知道Mersenne Twister在其历史背景或其他方面如何获得广泛的正面声誉。一方面，我显然对它的质量表示怀疑，但另一方面，很难想象它是完全随机发生的。

38 algorithms randomness sampling pseudo-random-generators

7

PRNG可以用来魔术压缩东西吗？

这个想法是我小时候学习编程的想法，并且是第一次接触PRNG。我仍然不知道它有多现实，但是现在有了堆栈交换。这是14岁的人使用的一种出色的压缩算法方案：取一个PRNG并用种子s进行种子处理，以获得长序列的伪随机字节。要将序列发送给另一方，您只需要传达PRNG的说明，适当的种子和消息的长度。对于足够长的序列，该描述将比序列本身短得多。现在，假设我可以反转该过程。如果有足够的时间和计算资源，我可以进行蛮力搜索，找到可以产生所需序列的种子（和PRNG，或者换句话说：一个程序）（比方说，一张有趣的猫调皮的照片）。在生成足够多的比特之后，PRNG会重复，但是与“典型”周期相比，我的消息非常短，因此这似乎不是一个很大的问题。 Voila，一种有效的压缩数据方式（如果是rube-Goldbergian）。因此，假设：我希望压缩的序列是有限的，并且事先知道。我的现金或时间并不短缺（只要两者都需要有限的金额）我想知道：该计划背后的推理是否存在根本缺陷？分析这类思想实验的标准方法是什么？摘要通常，好的答案不仅可以弄清楚答案，而且可以弄清楚我真正要问的是什么。感谢大家的耐心配合和详细的答案。这是我对答案的第n次尝试： PRNG /种子角度没有任何作用，只不过是生成所需序列作为输出的程序。信鸽原理：长度大于k的消息比长度小于等于k的（消息生成）程序多。因此，某些序列根本不能成为比消息短的程序输出。值得一提的是，程序（消息）的解释程序必须事先确定。它的设计确定了接收到长度为k的消息时可以生成的（小）消息子集。至此，原始的PRNG想法已经死了，但是至少还有一个最后的问题需要解决：问：我能幸运地发现我的长（但有限）消息恰好是长度小于k位的程序的输出吗？严格来说，这不是偶然的问题，因为必须事先知道所有可能的消息（程序）的含义。要么是 <k位的一些信息的含义或它不是。如果我随机选择一个随机消息，该消息>> k位（为什么？），无论如何我都将拥有使用少于k位发送消息的可能性，并且几乎可以肯定无法发送它完全使用不到k位。 OTOH，如果我从少于k位的程序输出中选择大于等于k位的特定消息（假设有这样的消息），那么实际上我是在利用已经传输到接收方（解释程序的设计），它被视为已传输消息的一部分。最后：问：熵 / kolmogorov复杂度业务到底是什么？最终，两者都告诉我们与（简单的）信鸽原理告诉我们的一样，我们可以压缩的程度：也许一点也没有，也许有些，但是肯定不如我们想象的那么多（除非我们作弊）。

38 information-theory randomness data-compression pseudo-random-generators entropy

2

天真的改组在渐近性上有多糟糕？

众所周知，这种“天真的”算法通过将每个项目与另一个随机选择的项目交换来改组数组，无法正常工作： for (i=0..n-1) swap(A[i], A[random(n)]); 具体来说，由于在次迭代中的每一次迭代中，都会做出选择之一（概率均等），因此通过计算存在可能的“路径”。因为可能的排列数为不能均匀地将路径数目划分为，该算法不可能产生路径中的每一个等概率排列。（相反，应该使用所谓的Fischer-Yates随机播放，这实际上改变了从[0..n]中选择随机数的调用与从[i..n]中选择随机数的调用；不过，这很无聊。）n nnn nnn nnnn^n n ！n!n!n nnnn^n n ！n!n! 我想知道的是，天真洗牌有多“糟糕”？更具体地说，令为所有置换的集合，令为通过朴素算法生成的最终置换的路径数，则的渐近行为是什么。功能P （Ñ ）P(n)P(n)Ç （ρ ）C(ρ)C(\rho)ρ ＆Element; P （Ñ ）ρ∈P(n)\rho\in P(n) M(n)=n!nnmaxρ∈P(n)C(ρ)M(n)=n!nnmaxρ∈P(n)C(ρ)\qquad \displaystyle M(n) = \frac{n!}{n^n}\max_{\rho\in P(n)} C(\rho) 和 m(n)=n!nnminρ∈P(n)C(ρ)m(n)=n!nnminρ∈P(n)C(ρ)\qquad \displaystyle m(n) = \frac{n!}{n^n}\min_{\rho\in P(n)} C(\rho)吗？首要因素是“标准化”这些值：如果幼稚的随机播放“渐近良好”，则 limn→∞M(n)=limn→∞m(n)=1limn→∞M(n)=limn→∞m(n)=1\qquad \displaystyle \lim_{n\to\infty}M(n) = \lim_{n\to\infty}m(n) = 1。我怀疑（基于我见过的一些计算机模拟）实际值的界线是1，但是甚至知道limM(n)limM(n)\lim M(n)是有限的，还是limm(n)limm(n)\lim m(n)是界线的呢？ …

33 algorithms algorithm-analysis asymptotics probability-theory randomness

2

用少于N个随机位来模拟2 ^ N中的1的概率

说我需要模拟以下离散分布： P(X=k)={12N,1−12N,if k=1if k=0P(X=k)={12N,if k=11−12N,if k=0 P(X = k) = \begin{cases} \frac{1}{2^N}, & \text{if $k = 1$} \\ 1 - \frac{1}{2^N}, & \text{if $k = 0$} \end{cases} 最明显的方法是绘制NNN随机位，并检查它们是否均等于000（或111）。但是，信息论说 S=−∑iPilogPi=−12Nlog12N−(1−12N)log(1−12N)=12Nlog2N+(1−12N)log2N2N−1→0S=−∑iPilog⁡Pi=−12Nlog⁡12N−(1−12N)log⁡(1−12N)=12Nlog⁡2N+(1−12N)log⁡2N2N−1→0 \begin{align} S & = - \sum_{i} P_i \log{P_i} \\ & = - \frac{1}{2^N} \log{\frac{1}{2^N}} - \left(1 - \frac{1}{2^N}\right) \log{\left(1 - \frac{1}{2^N}\right)} …

31 algorithms information-theory randomness pseudo-random-generators entropy

7

随机算法与不确定算法之间的区别和关系？

随机算法与不确定算法之间有什么区别和关系？来自维基百科甲随机算法是一种算法，其采用一程度的随机性作为其逻辑的一部分。该算法通常使用统一的随机位作为辅助输入来指导其行为，以期在所有随机位的可能选择的“平均情况”下获得良好的性能。形式上，算法的性能将是由随机位确定的随机变量；因此，运行时间或输出（或两者）都是随机变量。与确定性算法相反，非确定性算法是在不同的运行过程中表现出不同行为的算法。每次运行算法都有几种不同的行为方式。一个并行算法可因竞争条件不同在不同的运行执行。一个概率算法的行为取决于随机数发生器。解决非确定性多项式时间问题的算法可以在多项式时间或指数时间内运行，具体取决于其在执行过程中所做的选择。随机算法和概率算法是同一概念吗？如果是，则随机算法只是一种不确定性算法吗？

30 algorithms terminology computation-models nondeterminism randomness

4

从单纯形均匀采样

我正在寻找一种算法来生成N个随机数的数组，这样N个数字的总和为1，所有数字都位于0和1之内。例如，N = 3，即随机点（x，y， z）应位于三角形内： x + y + z = 1 0 < x < 1 0 < y < 1 0 < z < 1 理想情况下，我希望该区域内的每个点都具有相等的概率。如果太难了，我可以放弃要求。谢谢。

29 algorithms randomness random-number-generator sampling

11

冯·诺依曼在罪孽中的随机性不再适用吗？

一些小伙子说：任何试图通过确定性方法生成随机数的人当然都处于犯罪状态。这总是意味着您不能仅凭计算机生成真正的随机数。他说，当计算机的大小与单个Intel 8080微处理器（约6000个阀）的大小相同时。计算机变得越来越复杂，我相信冯·冯·诺依曼的说法可能不再正确。考虑到仅软件实现的算法是不可能的。它们在物理硬件上运行。真正的随机数生成器及其熵源也由硬件组成。这个Java片段陷入了循环： file.writeByte((byte) (System.nanoTime() & 0xff)); 可以创建一个我以图像表示的数据文件：您可以看到结构，但也有很多随机性。有趣的是，此PNG文件的大小为232KB，但包含250,000灰度像素。PNG压缩级别最高。那只是7％的压缩率。相当不可压缩。有趣的是该文件是唯一的。此文件的每一代都是略有不同的模式，并且具有相似的〜7％压缩率。我强调这一点，因为这对我的论点至关重要。熵约为7位/字节。当然，使用更强大的压缩算法将减少这种情况。但不要减少到0位/字节附近。通过拍摄上面的图像并将其颜色映射表替换为随机的图像，可以产生更好的印象：大多数结构（在上半部分）消失了，因为它只是具有相似但略有不同值的序列。这是仅通过在多任务操作系统上执行Java程序而创建的真正的熵源吗？不是统一分布的随机数生成器，而是一个的熵源？由在物理硬件上运行的软件构建的熵源，恰好是PC。补充性为了确认每个图像都产生新的熵，而没有所有人共有的固定模式，生成了10个连续图像。然后将它们连接起来，并使用我可以编译的最强大的存档器（paq8px）进行压缩。此过程将消除所有通用数据，包括自动关联，仅保留更改/熵。串联文件被压缩到〜66％，这导致〜5.3位/字节或10.5Mbits /图像的熵率。令人惊讶的熵⌣⌣ \smile 补充2 有负面评论认为我的压缩测试方法的熵是有缺陷的，仅给出了一个松散的上限估计。因此，现在我通过NIST的官方加密熵评估测试SP800-90B_EntropyAssessment运行了级联文件。这与非IID熵测量一样好。这是报告（很抱歉，这个问题越来越长，但是问题很复杂）：- Running non-IID tests... Entropic statistic estimates: Most Common Value Estimate = 7.88411 Collision Test Estimate = 6.44961 Markov Test Estimate = 5.61735 Compression Test Estimate = 6.65691 t-Tuple Test Estimate …

25 randomness data-compression entropy random-number-generator

9

使用硬币生成均匀分布的随机数

你有一枚硬币。您可以根据需要翻转它多次。要生成的随机数[R[Rr，使得a≤r<ba≤r<ba \leq r < b，其中。r,a,b∈Z+r,a,b∈Z+r,a,b\in \mathbb{Z}^+ 数字的分配应统一。如果很容易b − a = 2ñb−a=2ñb -a = 2^n： r = a + binary2dec(flip n times write 0 for heads and 1 for tails) 如果b − a ≠ 2ñb−a≠2ñb-a \neq 2^n怎么办？

25 algorithms probability-theory randomness random-number-generator

3

所有伪随机数生成器最终都是周期性的吗？

所有伪随机数生成器最终都是周期性的吗？还是它们最终都是周期性的？周期性是指像有理数一样，它们最终会产生周期性子序列... 伪随机意味着算法/数学生成随机数...

24 randomness pseudo-random-generators

1

如何证明随机播放算法的正确性？

我有两种方法可以按随机顺序生成项目列表，并想确定它们是否同样公平（公正）。我使用的第一种方法是构造元素的整个列表，然后对其进行随机播放（例如Fisher-Yates随机播放）。第二种方法更多是一种迭代方法，该方法使列表在每次插入时都保持乱序。在伪代码中，插入函数为： insert( list, item ) list.append( item ) swap( list.random_item, list.last_item ) 我对展示这种特殊混洗的公平性感兴趣。使用此算法的优点是足够的，即使稍微不公平也可以。要决定，我需要一种评估其公平性的方法。我的第一个想法是，我需要以这种方式计算可能的总排列与一组最终长度可能的总排列。但是，我对如何计算该算法产生的排列有些困惑。我也不能确定这是最好的还是最简单的方法。

24 algorithms proof-techniques randomized-algorithms correctness-proof randomness

8

真正的随机性是什么

我是计算机科学专业的学生，目前正在参加系统仿真与建模课程。它涉及处理我们周围的日常系统，并通过在不同的分布曲线（例如IID，高斯等）中生成随机数来模拟不同情况下的日常系统。我一直在从事boids项目，一个问题让我惊讶的是，“随机”到底是什么？我的意思是，例如，我们生成的每个随机数，即使是通过Math.random()Java中的方法（例如通过Java中的方法）在编程语言中，本质上都是按照“算法”生成的。我们如何真正知道我们产生的数字序列实际上是随机的，这对我们尽可能准确地模拟某个模型有帮助吗？

23 randomness modelling

6

我们可以使用无理数（如π和e）生成随机数吗？

，和等无理数在小数点后具有唯一且不可重复的序列。如果我们从这样的数字中提取第个数字（其中是调用该方法的次数），并按原样制作一个数字，我们是否不应该得到一个完美的随机数生成器？例如，如果我们使用，和，则第一个数字是123，第二个数字是471，下一个数字是184，依此类推。ππ\piËee2–√2\sqrt{2}ñnnñnn2–√2\sqrt{2}Ëeeππ\pi

21 randomized-algorithms randomness random-number-generator

9

在给定公平硬币的情况下如何模拟骰子

假设给了您一个公平的硬币，并且您想模拟重复翻转一个公平的（六面）骰子的概率分布。我最初的想法是，我们需要选择适当的整数，使2 k = 6 m。所以翻转硬币后ķ倍，我们通过将范围映射由第k比特串长度到管芯的输出编码数[ 0 ，2 ķ - 1 ]每个的长度为6个的间隔米。但是，这是不可能的，因为2 k仅有两个素数，但2 k的素数ķ ，米k,mk,m2ķ= 6 米2k=6m2^k = 6mķkk[ 0 ，2ķ− 1 ][0,2k−1][0,2^k-1]米mm2ķ2k2^k包括3。应该有其他简单的方法来执行此操作，对吗？6 米6m6m

21 probability-theory randomness sampling

3

拒绝采样是获得真正均匀的随机数分布的唯一方法吗？

假设我们有一个随机发生器，在输出范围数[0..R−1][0..R−1][0..R-1]与均匀分布，我们需要的范围内生成随机数[0..N−1][0..N−1][0..N-1] 与均匀分布。假设N<RN<RN < R并且NNN不能均匀地除以RRR ; 为了获得真正均匀的分布，我们可以使用拒绝采样方法：如果kkk是最大整数，则kN<RkN<Rk N < R 在[ 0 .. R − 1 ]中选择一个随机数rrr[0..R−1][0..R−1][0..R-1] 如果r<kNr<kNr < k N则输出，否则继续尝试其他随机数r'，r“，...直到满足条件rmodNrmodNr \mod N 拒绝采样是获得真正均匀的离散分布的唯一方法吗？如果答案是肯定的，为什么？注意：如果N>RN>RN > R则想法是相同的：在[0..R ^ m-1]中生成随机数r' ，R ^ m> = N，例如r'= R（... R（R r_1 + r_2）...）+ r_m，其中r_i是[0..R-1]范围内的随机数r′r′r'[0..Rm−1],Rm>=N[0..Rm−1],Rm>=N[0..R^m-1], R^m >= Nr′=R(...R(Rr1+r2)...)+rmr′=R(...R(Rr1+r2)...)+rmr' = R(...R(R r_1 + …

21 probability-theory randomness random-number-generator sampling

5

如何检测到数字生成器不是真正随机的？

我听说计算机中的随机数生成并不是真正的随机，但是没有有效的算法可以检测到它。怎么能完全检测到它？

20 randomness random-number-generator

Questions tagged «randomness»