Questions tagged «random-generation»

随机地或(几乎总是)伪随机地生成数字或符号序列的行为;即缺乏任何可预测性或模式。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]


11
脑筋急转弯:如何使用具有pr(head)= p的偏向硬币以相等的概率生成7个整数?
这是我在Glassdoor上发现的一个问题:如何使用具有的硬币以相等的概率生成7个整数Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1)? 基本上,您有一个硬币,可能是公平的,也可能是不公平的,这是唯一的随机数生成过程,因此想出一个随机数生成器,它输出从1到7的整数,其中获得每个整数的概率是1/7。 数据生成过程的效率至关重要。

8
如何模拟满足特定约束(例如具有特定均值和标准偏差)的数据?
这个问题是由我的荟萃分析问题引起的。但是我想这对于在您要创建与现有已发布数据集完全相同的数据集的教学环境中也很有用。 我知道如何从给定的分布中生成随机数据。因此,例如,如果我读到了一项研究的结果,该研究具有: 平均102 标准偏差5.2 样本大小为72。 我可以rnorm在R中使用生成类似的数据。例如, set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) 当然,平均值和标准差将分别不完全等于102和5.2: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 通常,我对如何模拟满足一组约束的数据感兴趣。在上述情况下,约束条件是样本大小,均值和标准差。在其他情况下,可能会有其他限制。例如, 可能知道数据或基础变量的最小值和最大值。 可能已知该变量仅采用整数值或仅采用非负值。 数据可能包含具有相互关系的多个变量。 问题 通常,我该如何模拟完全满足一组约束的数据? 是否有关于此的文章?R中是否有任何程序可以做到这一点? 为了举例说明,我应该并且应该如何模拟变量,使其具有特定的均值和sd?

4
如何生成相关的随机数(给定的均值,方差和相关度)?
很抱歉,这似乎太基本了,但是我想我只是想在这里确认了解。我觉得我必须分两步执行此操作,并且我已经开始尝试绘制相关矩阵,但是它似乎才真正开始涉及。我正在寻找一种简洁,合理的解释(理想情况下带有对伪代码解决方案的提示),这是一种生成相关随机数的理想方法。 给定两个具有已知均值和方差的伪随机变量height和weight以及给定的相关性,我认为我基本上是在试图理解第二步应该是什么样子: height = gaussianPdf(height.mean, height.variance) weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), correlated_variance(height.variance, correlation_coefficient)) 如何计算相关的均值和方差?但是我想确认这确实是相关的问题。 我需要诉诸矩阵操纵吗?还是我在解决此问题的基本方法上还有其他非常错误的地方?

5
伪随机数:比真实的均匀数据分布更均匀
我正在寻找一种生成似乎均匀分布的随机数的方法-每个测试都将显示它们是均匀的-除了它们比真实的均匀数据分布更均匀外。 我对“真实的”统一随机数存在的问题是,它们有时会聚类。在较小的样本量下,这种效果会更强。粗略地说:当我在U [0; 1]中绘制两个均匀随机数时,它们在0.1范围内的几率约为10%,在0.01范围内的几率约为1%。 因此,我正在寻找一种生成比统一随机数分布更均匀的随机数的好方法。 用例示例:比如说我在做电脑游戏,我想在地图上随机放置宝藏(不在乎其他任何东西)。我不想把宝藏全部放在一个地方,它应该遍布整个地图。如果使用统一的随机数,如果我放置10个对象,则彼此之间有5个左右的机会并不算低。这可以使一个玩家比另一个玩家更具优势。想想扫雷者,您很有可能(如果有足够的地雷的话)很幸运,只需单击一下即可获胜。 解决我的问题的一种非常幼稚的方法是将数据划分为网格。只要数量足够大(并且有足够的因素),就可以通过这种方式实现额外的统一性。因此,与从U [0; .1]提取12个随机变量不同,我可以从U [0; .5]提取6和从U [0.5; 1]提取6,或从U [0; 1/3] + 4提取4来自U [1/3; 2/3] + 4来自U [2/3; 1]。 有什么更好的方法可以使制服获得额外的均匀性?它可能仅适用于批量随机数(绘制单个随机数时,我显然必须考虑整个范围)。特别是,我可以在之后再次重新整理记录(因此它不是前三分之一中的前四个)。 如何逐步进行?那么第一个在U [0; 1]上,然后在每个半部分中两个,每个三分之一中一个,每个四个中一个?是否对此进行了调查,效果如何?我可能必须谨慎使用x和y的不同生成器,以使它们不相关(第一个xy总是在下半部分,第二个在左半部分和下三分之一,第三个xy在中心第三个和上三分之一。 ..因此至少还需要一些随机的bin排列。从长远来看,我想这会太均匀。 作为副节点,是否存在众所周知的测试,即某些分布是否过于均匀以至于无法真正统一?因此,测试“真正的统一”与“有人弄乱数据并使项目更均匀地分布”。如果我没记错的话,霍普金斯统计局(Hopkins Statistic)可以衡量这一点,但它也可以用于测试吗?KS-Test也是相反的:如果最大偏差低于某个预期阈值,数据分布是否过于均匀?

8
如何有效地生成随机正-半正相关矩阵?
我希望能够有效地生成正半定(PSD)相关矩阵。随着我增加要生成的矩阵的大小,我的方法大大降低了速度。 您能提出任何有效的解决方案吗?如果您知道Matlab中的任何示例,我将非常感谢。 生成PSD相关矩阵时,如何选择参数来描述要生成的矩阵?平均相关性,相关性的标准偏差,特征值?

3
R中的随机数-Set.seed(N)[重复]
这个问题已经在这里有了答案: 随机数生成器中的种子究竟是什么? 3个答案 我意识到有人set.seed()在R中使用伪随机数生成。我也意识到使用相同的数字,例如set.seed(123)可以确保您可以重现结果。 但是我不明白的是价值观本身意味着什么。我正在玩几个功能,有些使用set.seed(1)or set.seed(300)或set.seed(12345)。这个数字是什么意思(如果有的话),以及我什么时候应该使用其他数字。 例如,在我正在研究的书中,它们set.seed(12345)在为决策树创建训练集时使用。然后在另一章中,他们将set.seed(300)用于创建随机森林。 只是不知道电话号码。

11
为什么在(0,255)上均匀生成8个随机位?
我正在生成8个随机位(0或1)并将它们连接在一起以形成8位数字。一个简单的Python模拟在离散集[0,255]上产生均匀分布。 我试图证明为什么这在我的脑海中有意义。如果我将其与掷8个硬币进行比较,那么期望值会不会在4头/ 4头左右?因此对我来说,我的结果应该反映出范围中间的峰值是有意义的。换句话说,为什么8个零或8个数的序列似乎与4和4或5和3等的序列一样相等?我在这里想念什么?


3
的数字在统计上是否随机?
假设您遵循以下顺序: 7,9,0,5,5,5,4,8,0,6,9,5,3,8,7,8,5,4,4,0,6,6,4,4,5,3, 3,7,5,9,8,1,8,6,2,8,4,6,4,9,9,9,0,5,2,2,2,0,4,5,2,8。 .. 您将应用哪些统计检验来确定这是否是真正随机的?仅供参考,这些是π的第个数字。因此,π的数字是否在统计上是随机的?这说明常数π了吗?ññnππ\piππ\piππ\pi




1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.