Questions tagged «random-generation»

随机地或(几乎总是)伪随机地生成数字或符号序列的行为;即缺乏任何可预测性或模式。


4
彩票中哪些人最不可能选择哪个号码?
如今,超级百万富翁的资产超过5亿美元。我记得读过一篇JSTOR文章,内容涉及一些最不可能选择的数字。例如,很多人选择7是因为这是他们的幸运数字,我想要相反的数字。但是我的JSTOR成员资格用完了。在1到80之间的数字彩票中,人们最不可能选择哪个数字作为彩票选择? 注意:每个数字都有相等的机会被选中;我想选择数字,没有人可以选择,因此如果我赢了,我不必与任何人分享奖金。

4
如何生成具有给定标准偏差的近似正态分布的非对角项的随机相关矩阵?
我想生成一个随机相关矩阵,以使其非对角元素的分布看起来近似正态。我该怎么做? 动机是这样的。对于一组时间序列数据,相关分布通常看起来非常接近正态分布。我想生成许多“常规”相关矩阵来表示一般情况,并使用它们来计算风险数。ñnn 我知道一种方法,但由此产生的标准偏差(非对角元素的分布)太小了,无法达到我的目的:生成矩阵均匀或正常随机行,标准化行(减去均值,除以标准偏差),则样本相关矩阵具有非对角线正态分布[ 注释后更新:标准偏差为 ]。X 1ñnnXX\mathbf X〜ñ-1/21个n − 1X X⊤1n−1XX⊤\frac{1}{n-1}\mathbf X \mathbf X^\top〜ñ- 1 / 2∼n−1/2\sim n^{-1/2} 谁能建议一种更好的方法来控制标准偏差?

3
如何在3维单位球中生成均匀分布的点?
我已经发布了一个先前的问题,这是相关的,但是我认为最好启动另一个线程。这次,我想知道如何在3-d单位球体内生成均匀分布的点,以及如何从视觉和统计角度检查分布?我看不到那里发布的策略可以直接转移到这种情况。

2
如何模拟审查数据
我想知道如何模拟n个Weibull分布寿命的样本,其中包括类型I右删失的观测值。例如,让n = 3,形状= 3,比例= 1,审查率= .15,审查时间= .88。我知道如何生成Weibull样本,但是我不知道如何生成在R中类型为I右删失的删失数据。 T = rweibull(3, shape=.5, scale=1)

1
在伪随机数生成中设置种子的参考和最佳实践
在这份与“设置种子”命令有关的文档中,Stata员工讨论了在生成伪随机数时与种子设置有关的问题。 一个显着的“不”是“不连续使用自然数作为种子的顺序,因为这有一个模式,危害伪随机性”。 一个四分之一的开玩笑的“做”是在您的一生中只设置一个种子,然后在每个实验结束时记录所生成过程的“状态”,以便下一个实验在该点继续进行该进程已停止的位置。 显然,以上建议取决于一个人在其研究生命中将产生的伪随机数的预期数目。也许梅森捻线机可以满足许多研究人员的终生需求。 现在,我对PRNG的理论或实践经验并不丰富,因此我无法争论这些建议- 应该从理论基础和严格的数学统计证明它们是有效的还是无效的。 所以,我的问题是 1)您能否帮助解释或使以上给出的建议无效,或指向涉及此类问题的参考? 2)您可以提供提供“最佳做法”的参考资料吗? 3)您如何在自己的工作中进行这项工作,为什么? 作为问题3)的示例,假设对于Monte Carlo研究,您想要生成样本,每个样本的大小为,并且的周期足够大于。您会使用一个种子生成所有伪随机数,还是习惯每个样本更改种子?(但这仅是示例-我认为这里更一般的答案是值得的)。 米米mññn液化天然气液化天然气\text{PRNG}米ñ米ñmn米ñ米ñmn 一个相关的线程(尽管更加集中)是 在每个代码块之前还是每个项目一次设置种子? 我觉得这也许应该是社区Wiki,请对此做出决定。

1
对数随机数生成
我需要从具有密度的对数柯西分布中提取随机数: 谁能帮助我或将我指向一本可以告诉我如何的书/纸?F(x ; μ ,σ)= 1X πσ[ 1 + (升Ñ (X )- μσ)2]。F(X;μ,σ)=1个Xπσ[1个+(升ñ(X)-μσ)2]。f(x;\mu,\sigma)=\frac{1}{x\pi\sigma\left[1+\left(\frac{ln(x)-\mu}{\sigma}\right)^2\right]}.

2
有效采样阈值Beta分布
如何从以下分布中有效采样? X 〜乙(α ,β),x > k X〜乙(α,β), X>ķ x \sim B(\alpha, \beta),\space x > k 如果不太大,则拒绝采样可能是最好的方法,但是我不确定很大时如何进行。也许可以应用一些渐近逼近?ķķkķķk

4
它是否正确 ?(生成截断范数多元高斯)
如果 ,即 X∈Rn, X∼N(0–,σ2I)X∈Rn, X∼N(0_,σ2I)X\in\mathbb{R}^n,~X\sim \mathcal{N}(\underline{0},\sigma^2\mathbf{I})fX(x)=1(2πσ2)n/2exp(−||x||22σ2)fX(x)=1(2πσ2)n/2exp⁡(−||x||22σ2) f_X(x) = \frac{1}{{(2\pi\sigma^2)}^{n/2}} \exp\left(-\frac{||x||^2}{2\sigma^2}\right) 我想要多元情况下的截断正态分布的类似版本。 更确切地说,我想生成一个范数约束(值)的多元高斯 st ,其中ÿ ˚F ý(Ý )= { Ç 。f X(y ), 如果 | | y | | ≥ 一个0 , 否则 。c = 1≥a≥a\geq aYYYfY(y)={c.fX(y), if ||y||≥a0, otherwise .fY(y)={c.fX(y), if ||y||≥a0, otherwise . f_Y(y) = \begin{cases} c.f_X(y), \text{ if …


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
产生有约束的随机向量
我需要创建满足以下约束的实数a_i的随机向量: abs(a_i) < c_i; sum(a_i)< A; # sum of elements smaller than A sum(b_i * a_i) < B; # weighted sum is smaller than B aT*A*a < D # quadratic multiplication with A smaller than D where c_i, b_i, A, B, D are constants. 有效生成这种向量的典型算法是什么?

2
RNG,R,mclapply和计算机集群
我在R和计算机集群上运行模拟,并且遇到以下问题。在每台X台计算机上运行: fxT2 <- function(i) runif(10) nessay <- 100 c(mclapply(1:nessay, fxT2), recursive=TRUE) 有32台计算机,每台计算机具有16个核心。但是,大约2%的随机数是相同的。您将采取什么策略来避免这种情况? 通过设置等待时间(即,将每个作业发送到X台计算机的时间延迟了几秒钟),我已经能够避免fxT2出现此问题。但是,对于fxt2来说似乎是非常特殊的。 问题在于,实际上fxT2是一项涉及伪随机数的漫长任务。在过程的最后,我希望得到同一统计实验的X * nessay复制,而不是 nessay复制。如何确保确实如此,是否有办法检查?

4
从电子邮件地址到准随机数[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我的目标: 我想要一个具有电子邮件地址并输出1、2、3或4的准随机数的函数。 一点细节: 通过准随机数,我的意思是给定一个典型的电子邮件地址,获得值1、2、3或4的概率大致相等,并且电子邮件地址的明显系统属性(例如域名)不会影响获得值1、2、3或4的可能性。 一点背景: 我有一个以询问方式编写的在线实验,参与者有两次登录。我想将参与者随机分配到四个组之一。尽管对于一个会话来说这很容易做到(我只能使用随机数生成器),但是我需要某种方式来记住跨会话的分配。因此,我认为我可以从参与者电子邮件中提取一个准随机组分配。我在可用的功能集中也受到限制(完整列表请参见此处)。字符串函数是:较低上部大写concat搜索replaceall包含以结尾开头的字符串,带有子字符串trim trimright trimleft长度格式求值 初步想法: 我考虑过尝试提取电子邮件地址的一组功能,这些功能返回的概率分别为1、2、3或4。然后,我可以对这些属性求和并得到mod 4 plus 1。因此,假设类似中心极限定理,我可能会接近。 我可能想到的功能: 字符串长度 第一个“ a”,“ b”等的位置

4
从1个值播种N个独立随机数生成器的最佳方法
在我的程序中,我需要运行N个单独的线程,每个线程都有自己的RNG,该RNG用于采样大型数据集。我需要能够使用单个值为整个过程设定种子,以便能够重现结果。 仅按顺序增加每个索引的种子就足够了吗? 目前,我使用numpy的是RandomState使用Mersenne Twister伪随机数生成器的。 下面的代码片段: # If a random number generator seed exists if self.random_generator_seed: # Create a new random number generator for this instance based on its # own index self.random_generator_seed += instance_index self.random_number_generator = RandomState(self.random_generator_seed) 本质上,我从用户输入的种子(如果存在)开始,然后针对每个实例/线程,依次添加正在运行的实例的索引(从0到N-1)。我不知道这是个好习惯还是有更好的方法来做到这一点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.