Questions tagged «simulation»

广阔的领域包括通过计算机模型生成结果。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


2
马尔可夫链与马尔可夫链蒙特卡洛之间有什么联系
我正在尝试使用SAS了解马尔可夫链。我了解到,马尔可夫过程是未来状态仅取决于当前状态而不取决于过去状态的过程,并且存在一个转移矩阵来捕获从一种状态到另一种状态的转移概率。 但是后来我碰到了这个术语:Markov Chain Monte Carlo。我想知道的是,马尔可夫链蒙特卡洛是否与我上面描述的马尔可夫过程有关?

3
截短的分布是什么意思?
在一篇有关动力系统常微分方程模型敏感性分析的研究文章中,作者提供了模型参数的分布,即正态分布(mean = 1e-4,std = 3e-5)截断了[0.5e -4 1.5e-4]。然后,他使用截断后的分布中的样本进行模型仿真。截短的分布并从该截短的分布中采样是什么意思? 我可以想出两种方法: 从正态分布采样,但是在仿真之前忽略所有落在指定范围之外的随机值。 以某种方式获得特殊的“截断正态”分布并从中获取样本。 这些有效和等效的方法吗? 我认为,在第一种情况下,如果要绘制样本的实验cdf / pdf,则它看起来不会像正态分布,因为曲线不会延伸到。±∞±∞\pm\infty

1
为什么要使用参数引导程序?
我目前正在设法弄清有关参数引导程序的一些事情。大多数事情可能都很琐碎,但我仍然认为我可能错过了一些东西。 假设我想使用参数引导程序获取数据的置信区间。 因此,我有此样本,并假设其为正态分布。那么我估计方差v和平均米,并得到我的分布估计P,这显然只是ñ (米,v)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) 除了从该分布中采样外,我还可以分析地计算分位数并完成。 a)我得出结论:在这种微不足道的情况下,参数引导程序是否与在正态分布假设中计算事物相同? 因此,从理论上讲,只要我能处理计算,所有参数自举模型都是如此。 b)我得出结论:使用一定分布的假设将使我在参数引导程序上获得比非参数引导程序更高的准确性(如果正确的话)。但是除此之外,我之所以这样做,是因为我无法处理分析计算而无法尝试模拟我的分析方法吗? c)如果计算通常是使用近似值完成的,我也将使用它,因为这可能会给我带来更高的准确性...? 对我来说,(非参数)引导程序的好处似乎在于我不需要假设任何分布。对于参数引导程序,该优势已经消失了-还是我错过了某些事情,而参数引导程序在哪些方面提供了上述优势?

2
多元线性回归模拟
我是R语言的新手。我想知道如何从满足回归的所有四个假设的多重线性回归模型进行模拟。 好的谢谢。 假设我要基于此数据集模拟数据: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) 然后我得到输出: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 0.33188 2.41657 …

2
R中的随机微分方程的数值求解器:有吗?
我正在寻找一种通用,干净,快速(即使用C ++例程)的R包,用于使用Euler-Maruyama方案,Milstein方案(或任何其他方案)模拟非均匀非线性扩散(如(1))的路径。这注定要嵌入到更大的估计代码中,因此值得优化。 dXt=f(θ,t,Xt)dt+g(θ,t,Xt)dWt,(1)(1)dXt=f(θ,t,Xt)dt+g(θ,t,Xt)dWt,dX_t = f(\theta, t, X_t)\, dt + g(\theta, t, X_t)\, dW_t, \tag{1} 与标准布朗运动。 WtWtW_t

2
通过泊松回归生成数据样本
我想知道如何从R中的泊松回归方程生成数据?我对如何解决这个问题感到困惑。 因此,如果我假设我们有两个分布为预测变量和。截距为0,两个系数都等于1。那么我的估计很简单:X1个X1X_1X2X2X_2ñ(0 ,1 )N(0,1)N(0,1) 日志(是)= 0 + 1 ⋅ X1个+ 1 ⋅ X2log⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 但是,一旦计算出log(Y),如何基于该值生成泊松计数?泊松分布的速率参数是多少? 如果有人可以编写一个简短的R脚本来生成泊松回归样本,那将太棒了!

3
如何编写Bertrand盒悖论的蒙特卡罗模拟?
在Mensa International Facebook页面上发布了以下问题: \quad\quad\quad\quad\quad\quad\quad\quad 该帖子本身收到了1000多个评论,但由于我知道这是Bertrand的“盒子悖论”,而答案是,因此我不会在此处详细讨论辩论。让我感兴趣的是,如何使用蒙特卡洛方法回答这一问题?该算法如何解决这个问题?2323\frac23 这是我的尝试: 生成到之间的均匀分布的随机数。0 1NNN000111 让事件框包含选择的2个金球(方框1)小于一半。 计数数字,小于,并调用结果作为。秒0.50.50.5SSS 由于确定如果选择了框1,就肯定会得到金球,如果选择了框2,则只有50%的机会会得到金球,因此,得到序列GG的概率为 P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} 在R中实现上述算法: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 上面程序的输出大约是,几乎与正确答案匹配,但是我不确定这是正确的方法。是否有适当的方法以编程方式解决此问题?0.670.670.67

6
是否存在我们无法抽样的单变量分布?
从单变量分布(逆变换,接受拒绝,Metropolis-Hastings等)中,我们有各种各样的随机生成方法,似乎我们可以从任何有效分布中采样-是这样吗? 您能否提供无法随机生成的单变量分布示例?我想这个不可能的例子不存在(?),所以说“不可能”是指计算量非常大的情况,例如,需要蛮力模拟,例如绘制大量样本以仅接受他们很少。 如果不存在这样的示例,我们是否可以实际证明可以从任何有效分布中生成随机抽奖?我只是很好奇是否存在反例。

3
实验设计中可能存在的混淆
问题概述 警告:这个问题需要很多设置。请多多包涵。 我和我的一位同事正在进行实验设计。设计必须解决许多约束,我将在下面列出。我已经开发出一种可以满足约束条件的设计,并且可以对我们的利益产生无偏的估计。但是,我的同事认为设计中存在混淆。我们在没有解决问题的情况下就这一点进行了辩论,因此,在此我想提出一些外部意见。 我将在下面描述研究的目标,我们的制约因素,潜在的困惑以及为什么我相信这个“​​困惑”不是问题。在阅读每一部分时,请记住我的总体问题: 我描述的设计中是否有混淆? [此实验的细节已修改,但提出我的问题所需的基本要素保持不变] 实验目标 我们希望确定白人男性撰写的论文是否比白人女性,黑人男性或黑人女性撰写的论文(论文作者身份变量)更受好评。我们还希望确定我们发现的任何偏差在高质量或低质量的赠款(质量变量)中是否显示更多。最后,我们希望包括有关12个不同主题(主题变量)的论文。但是,只有前两个变量具有实质意义。尽管主题必须随文章的不同而不同,但是我们对评估在主题之间的不同方式没有实质性的兴趣。 约束条件 我们可以收集的参与者数量和论文数量都有限制。结果是,作者身份不能完全在参与者之间操纵,也不能完全在论文之间操纵(即,每篇单独的论文必须分配给多个条件)。 尽管每篇文章都可以有白人,白人,黑人和黑人女性,但是每篇文章只能是高质量和低质量之一,并且只能涉及一个主题。或者,以不同的方式施加此约束,论文中的质量和主题都无法操纵,因为它们是给定论文的固有特征。 由于疲劳,给定参与者可以评估的论文数量有限。 给定人员阅读的所有文章都必须与单个主题有关。换句话说,不能将论文完全随机地分配给参与者,因为我们需要确保每个参与者仅阅读相似主题的论文。 每个参与者只能查看一个据称由非白人男性作者撰写的论文,因为我们不希望参与者对实验的目的产生怀疑,因为他们的论文太多是由黑人或女性作者撰写的。 拟议的设计 我提出的设计首先将每篇文章分成4种不同的作者版本(白人男性,白人女性等)。然后,使用来自相似主题的四篇论文来定义一个“集合”,每篇论文都由两篇高质量和两篇低质量的论文组成。每个参与者从给定的集合中收到三篇论文,如下图所示。然后,每个参与者对他或她分配的三篇论文中的每篇论文都提供一个单独的评分。 潜在的困惑 我的同事认为上述设计存在混淆。他说,问题在于,当高质量的论文被指派由非白人男性作家撰写时,它总是与一篇高质量的论文和一部劣质的论文配对(关于论文1,请参见参与者1-3在图中)。另一方面,当同一篇论文被指派由白人男性作家撰写时,它与一部高质量的论文和一部低质量的论文配对三遍(对于论文1,参与者4-6)和两篇低质量的论文三对。次(论文1,参与者7-9)。 低质量的论文也存在类似的问题。当低质量的论文有非白人男性作者时,通常会以低质量的论文和高质量的论文来见(关于论文3,请参见参与者7-9)。但是,当同一篇文章中有一位白人男性作者时,可以看到一篇高质量的论文和一篇低质量的论文三遍(对于论文3,参与者10-12),而两次高质量的论文则是三遍(对于论文3,参与者1-3)。 上述模式可能存在问题的原因是,如果我们假设存在“对比效果”。具体而言,如果将高质量的论文与两份低质量的论文搭配在一起比在一篇低质量的论文和一份高质量的论文(合理的假设)上配对的平均评价更好,那么白人男性论文可能会获得比白人女性,黑人男性和黑人女性散文是作者身份以外的原因。 低质量论文的对比效果可能会或可能不会平衡高质量论文的对比效果;也就是说,对低质量论文和两篇高质量论文进行配对的情况可能会,也可能不会,特别是不利。无论如何,我的同事认为,任何形式的对比效果都可能使该设计成为问题,以便确定白人男性撰写的论文是否比其他作者的论文更受好评。 为什么我相信潜在的困惑不是问题 对我来说重要的是,即使存在对比效应,我们是否能够估计白人男性论文与其他论文的评价程度(即我们是否可以估计我们感兴趣的效果)。因此,我进行了一次模拟,在其中模拟了50个包含对比效果并适合测试我们感兴趣的效果的数据集。 具体模型是一种混合效果模型,具有随机的文章截距(每篇论文由多个参与者评估)和参与者(每个参与者评估多篇论文)。文章级别还包含种族,性别及其相互作用的随机斜率(这两个变量都在文章中操纵),参与者级别也包含质量的随机斜率(质量在参与者内部操纵)。兴趣的影响是种族,性别,种族与性别之间的相互作用以及这些变量和质量中的每一个之间的高级交互作用的影响。此模拟的目的是确定在数据中引入对比效果是否会造成种族,性别,种族与性别之间的相互作用,以及这些变量和质量之间的高级交互作用。有关更多详细信息,请参见下面的代码块。 根据模拟,对比效果的存在不会使我们感兴趣的任何效果的估计值产生偏差。此外,可以在与设计中其他效果相同的统计模型中估算对比效果的大小;对我来说,这已经表明我的同事所确定的“对比效果”并不是一个困惑。但是,我的同事仍然持怀疑态度。 require(lme4) require(plyr) participant <- rep(1:12, 3) essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9)) quality <- ifelse(essay == 1 | essay == 2, …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
如何模拟功能数据?
我正在尝试测试各种功能数据分析方法。理想情况下,我想测试关于模拟功能数据的方法。我试图使用一种基于求和高斯噪声(以下代码)的方法来生成模拟FD,但与真实物体相比,所得曲线看起来过于坚固。 我想知道是否有人指向函数/思想以生成更逼真的模拟功能数据。特别地,这些应该是平滑的。我是该领域的新手,欢迎任何建议。 library("MASS") library("caTools") VCM<-function(cont,theta=0.99){ Sigma<-matrix(rep(0,length(cont)^2),nrow=length(cont)) for(i in 1:nrow(Sigma)){ for (j in 1:ncol(Sigma)) Sigma[i,j]<-theta^(abs(cont[i]-cont[j])) } return(Sigma) } t1<-1:120 CVC<-runmean(cumsum(rnorm(length(t1))),k=10) VMC<-VCM(cont=t1,theta=0.99) sig<-runif(ncol(VMC)) VMC<-diag(sig)%*%VMC%*%diag(sig) DTA<-mvrnorm(100,rep(0,ncol(VMC)),VMC) DTA<-sweep(DTA,2,CVC) DTA<-apply(DTA,2,runmean,k=5) matplot(t(DTA),type="l",col=1,lty=1)

9
本书提供了统计方法的广泛而概念性的概述
我对统计分析在模拟/预测/功能估计等方面的潜力非常感兴趣。 但是,我对此并不太了解,我的数学知识仍然非常有限-我是软件工程专业的一名本科生。 我正在寻找一本可以让我开始不断学习的东西的书:线性回归和其他类型的回归,贝叶斯方法,蒙特卡洛方法,机器学习等。我也想开始使用R,所以如果有一本书将两者结合在一起,真是太棒了。 最好是,我希望这本书从概念上而不是过多的技术细节上进行解释-我希望统计数据对我来说非常直观,因为我知道统计数据存在很多风险。 我当然愿意阅读更多书籍,以增进对我认为有价值的主题的理解。

2
求蒙特卡罗模拟估计的精度
背景 我正在设计一个结合了一系列模型输出的蒙特卡洛模拟,并且我想确保该模拟将使我能够对模拟结果的概率和该概率估计的精度提出合理的要求。 模拟将发现从特定社区招募的陪审团将某被告定罪的可能性。这些是模拟步骤: 使用现有数据,通过对人口预测变量上的“初选投票”进行回归,生成逻辑概率模型(M)。 使用蒙特卡洛方法模拟M的 1,000个版本(即,模型参数的系数的1000个版本)。 选择模型的1,000个版本之一(M i)。 Empanel 1,000陪审团通过从具有特定人口特征分布的个人“社区”(C)中随机选择1,000组12个“陪审员”来进行。 使用M i确定性地计算每个陪审员第一次有罪表决的概率。 将每个“陪审员”的可能的票数投给确定票(根据票数是大于还是小于0-1之间的随机选择值)。 通过使用陪审团定罪的概率模型(从经验数据得出)来确定每个“陪审团”的“最终投票”,条件是陪审员在第一次投票中对定罪投票的比例。 存储有1000个陪审团(PG i)的有罪判决的比例。 对M的1,000个模拟版本中的每一个重复步骤3-8 。 计算PG的平均值,并将其报告为C中定罪概率的点估计 。 确定PG的2.5和97.5个百分位数,并将其报告为0.95置信区间。 我目前正在使用1,000名陪审员和1,000名陪审员的理论,即从概率分布(C或M版本的人口统计特征)中抽取1000次随机抽奖将填补该分布。 问题 这将使我能够准确地确定估计的精度吗?如果是这样,我需要为每个PG i计算覆盖几个陪审团,以涵盖C的概率分布(因此避免了选择偏差);我可以使用少于1000个吗? 非常感谢您的帮助!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.