Questions tagged «monte-carlo»

使用(伪)随机数和大数定律模拟真实系统的随机行为。

1
Metropolis-Hastings集成-为什么我的策略不起作用?
假设我有一个函数,我想集成 当然,假设在端点处为零,没有爆炸,功能很好。一种方式,我已经和摆弄是使用大都市斯算法来生成列表的样品从分配比例,以,其缺少归一化常数 ,我将其称为,然后在这些上计算一些统计量: g(x)g(x)g(x)∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)克(X )ñ = ∫ ∞ - ∞克(X )d X p (X )˚F (X )X 1x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_ng(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. 由于,我可以用代替以从积分中消除,从而得到形式的表达式 因此,假设沿该区域积分为,我应该得到结果,我可以取倒数来获得我想要的答案。因此,我可以取样品的范围(以最有效地利用这些点),让我绘制的每个样品的U(x)= 1 / r。这样U(x)f (x )= U (x )/ g (x )g 1p(x)=g(x)/Np(x)=g(x)/Np(x) = g(x)/Nf(x)=U(x)/g(x)f(x)=U(x)/g(x)f(x) …

2
有什么技术可以对两个相关的随机变量进行采样?
有什么技术可以对两个相关的随机变量进行采样: 如果其概率分布已参数化(例如,对数正态) 如果它们具有非参数分布。 数据是两个时间序列,可以为它们计算非零相关系数。假设历史相关性和时间序列CDF不变,我们希望将来模拟这些数据。 对于情况(2),一维类似物将用于构建CDF并从中采样。所以我想我可以构造一个二维CDF并做同样的事情。但是,我想知道是否有一种方法可以通过使用单个的一维CDF并以某种方式链接这些选项。 谢谢!


1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
马尔可夫链与马尔可夫链蒙特卡洛之间有什么联系
我正在尝试使用SAS了解马尔可夫链。我了解到,马尔可夫过程是未来状态仅取决于当前状态而不取决于过去状态的过程,并且存在一个转移矩阵来捕获从一种状态到另一种状态的转移概率。 但是后来我碰到了这个术语:Markov Chain Monte Carlo。我想知道的是,马尔可夫链蒙特卡洛是否与我上面描述的马尔可夫过程有关?

1
低差异序列中的加扰和相关(Halton / Sobol)
我目前正在一个项目中,在其中使用低差异/准随机点集(例如Halton和Sobol点集)生成随机值。这些本质上是维向量,它们模仿d维均匀(0,1)变量,但分布较好。从理论上讲,它们应该有助于减少项目另一部分中我的估算值的差异。dddddd 不幸的是,我一直在与他们合作时遇到问题,关于它们的许多文献都很密集。因此,我希望从有经验的人那里获得一些见识,或者至少想出一种凭经验评估发生了什么的方法: 如果您曾与他们合作: 到底是什么?它对生成的点流有什么影响?特别是,当生成的点的尺寸增加时,会产生影响吗? 为什么如果我通过MatousekAffineOwen加扰生成两个Sobol点流,则会得到两个不同的点流。当我对Halton点使用反基数加扰时,为什么不是这种情况?这些点集是否还存在其他加扰方法-如果是,是否有MATLAB实现? 如果您尚未与他们合作: 假设我有个假设为随机数的序列S 1,S 2,... ,S n,那么我应该使用哪种类型的统计数据来表明它们之间没有关联?我需要证明什么n才是统计上有意义的?另外,我怎么会做同样的事情,如果我有ň序列小号1,s ^ 2,... ,小号ñ的d维随机[ 0 ,1 ]的载体?nnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nnnnnnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nddd[0,1][0,1][0,1] 红衣主教回答的后续问题 从理论上讲,我们可以将任何加扰方法与任何低差异序列配对吗?MATLAB只允许我对Halton序列应用反基数加扰,并且想知道这仅仅是实现问题还是兼容性问题。 我正在寻找一种方法,使我可以生成彼此不相关的两个(t,m,s)网。MatouseAffineOwen可以允许我这样做吗?如果我使用确定性加扰算法并简单地决定选择每个以k为质数的'kth'值,该怎么办?

5
Matlab / octave或R是否更适合蒙特卡洛模拟?
我开始在R从事蒙特卡洛的业余爱好,但最终一位财务分析师建议迁移到Matlab。我是一位经验丰富的软件开发人员。但是是蒙特卡洛的初学者。我想用灵敏度分析来构造静态模型,然后再构造动态模型。需要指导我的好的库/算法。 在我看来,R具有出色的库,而且我怀疑mathlab被无经验的程序员所青睐,因为它具有类似于pascal的简单语言。R语言是基于方案的,这对初学者来说很难,但对我而言却不是。如果Matlab / Octave在数值/库方面没有优势,我会坚持使用R。
14 r  matlab  monte-carlo 

1
为什么要使用参数引导程序?
我目前正在设法弄清有关参数引导程序的一些事情。大多数事情可能都很琐碎,但我仍然认为我可能错过了一些东西。 假设我想使用参数引导程序获取数据的置信区间。 因此,我有此样本,并假设其为正态分布。那么我估计方差v和平均米,并得到我的分布估计P,这显然只是ñ (米,v)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) 除了从该分布中采样外,我还可以分析地计算分位数并完成。 a)我得出结论:在这种微不足道的情况下,参数引导程序是否与在正态分布假设中计算事物相同? 因此,从理论上讲,只要我能处理计算,所有参数自举模型都是如此。 b)我得出结论:使用一定分布的假设将使我在参数引导程序上获得比非参数引导程序更高的准确性(如果正确的话)。但是除此之外,我之所以这样做,是因为我无法处理分析计算而无法尝试模拟我的分析方法吗? c)如果计算通常是使用近似值完成的,我也将使用它,因为这可能会给我带来更高的准确性...? 对我来说,(非参数)引导程序的好处似乎在于我不需要假设任何分布。对于参数引导程序,该优势已经消失了-还是我错过了某些事情,而参数引导程序在哪些方面提供了上述优势?

2
重要性抽样产生的蒙特卡洛估计结果
在过去的一年中,我一直在非常接近地进行重要性抽样工作,并且有一些开放性问题,希望能对此有所帮助。 我在重要性采样方案上的实践经验是,它们有时可以产生出色的低方差和低偏差估计。但是,更常见的是,它们倾向于产生高误差估计值,该估计值具有较低的样本方差,但具有很高的偏差。 我想知道是否有人可以确切解释影响重要性抽样估计有效性的哪些因素?我尤其想知道: 1)当偏倚分布具有与原始分布相同的支持时,重要性抽样估计是否可以保证收敛到正确的结果?如果是这样,为什么在实践中似乎要花这么长时间? 2)通过重要性抽样得出的估计误差与偏差分布的“质量”(即,与零方差分布有多少匹配)之间是否存在可量化的关系? 3)部分基于1)和2)-有没有一种方法可以量化您必须了解的分布“多少”,然后再使用重要性抽样设计比简单的蒙特卡洛方法更好。

3
如何编写Bertrand盒悖论的蒙特卡罗模拟?
在Mensa International Facebook页面上发布了以下问题: \quad\quad\quad\quad\quad\quad\quad\quad 该帖子本身收到了1000多个评论,但由于我知道这是Bertrand的“盒子悖论”,而答案是,因此我不会在此处详细讨论辩论。让我感兴趣的是,如何使用蒙特卡洛方法回答这一问题?该算法如何解决这个问题?2323\frac23 这是我的尝试: 生成到之间的均匀分布的随机数。0 1NNN000111 让事件框包含选择的2个金球(方框1)小于一半。 计数数字,小于,并调用结果作为。秒0.50.50.5SSS 由于确定如果选择了框1,就肯定会得到金球,如果选择了框2,则只有50%的机会会得到金球,因此,得到序列GG的概率为 P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} 在R中实现上述算法: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 上面程序的输出大约是,几乎与正确答案匹配,但是我不确定这是正确的方法。是否有适当的方法以编程方式解决此问题?0.670.670.67

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
在R中使用Monte Carlo模拟逼近积分
我如何使用MC模拟近似以下积分? ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y 谢谢! 编辑(在某些情况下):我试图学习如何使用仿真来逼近积分,并且遇到一些困难时可以做一些练习。 编辑2 + 3:我不知何故感到困惑,以为我需要将积分拆分为单独的部分。因此,我实际上发现了: n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

2
求蒙特卡罗模拟估计的精度
背景 我正在设计一个结合了一系列模型输出的蒙特卡洛模拟,并且我想确保该模拟将使我能够对模拟结果的概率和该概率估计的精度提出合理的要求。 模拟将发现从特定社区招募的陪审团将某被告定罪的可能性。这些是模拟步骤: 使用现有数据,通过对人口预测变量上的“初选投票”进行回归,生成逻辑概率模型(M)。 使用蒙特卡洛方法模拟M的 1,000个版本(即,模型参数的系数的1000个版本)。 选择模型的1,000个版本之一(M i)。 Empanel 1,000陪审团通过从具有特定人口特征分布的个人“社区”(C)中随机选择1,000组12个“陪审员”来进行。 使用M i确定性地计算每个陪审员第一次有罪表决的概率。 将每个“陪审员”的可能的票数投给确定票(根据票数是大于还是小于0-1之间的随机选择值)。 通过使用陪审团定罪的概率模型(从经验数据得出)来确定每个“陪审团”的“最终投票”,条件是陪审员在第一次投票中对定罪投票的比例。 存储有1000个陪审团(PG i)的有罪判决的比例。 对M的1,000个模拟版本中的每一个重复步骤3-8 。 计算PG的平均值,并将其报告为C中定罪概率的点估计 。 确定PG的2.5和97.5个百分位数,并将其报告为0.95置信区间。 我目前正在使用1,000名陪审员和1,000名陪审员的理论,即从概率分布(C或M版本的人口统计特征)中抽取1000次随机抽奖将填补该分布。 问题 这将使我能够准确地确定估计的精度吗?如果是这样,我需要为每个PG i计算覆盖几个陪审团,以涵盖C的概率分布(因此避免了选择偏差);我可以使用少于1000个吗? 非常感谢您的帮助!

2
设计一个好的混合/哈密顿蒙特卡洛算法,我应该知道些什么?
我正在为PyMC设计一种混合蒙特卡洛采样算法,并且试图使其尽可能地简化和通用,因此我正在寻找有关设计HMC算法的好的建议。我已阅读雷德福的调查章节和Beskos等。等人最近发表的有关HMC最佳(步长)调整的论文,我收集了以下技巧: 动量变量应该与协方差分布,其中Ç通常是一样的东西分配(为简单分布)的协方差矩阵,但可以想见,是不同的(对于滑稽形分布)。默认情况下,我在该模式下使用粗麻布。C−1C−1C^{-1}CCC 轨迹应使用跳越法计算(其他集成商似乎不值得) 对于非常大的问题,最佳接受率是.651,否则更高。 步长大小应该被缩放等,其中,大号是自由变量和d是维数。L×d(1/4)L×d(1/4)L\times d^{(1/4)}LLLddd 当存在轻尾或其他具有奇数稳定性特征的区域时,步长应更小。步长随机化可以对此有所帮助。 还有其他我应该采纳或至少考虑的想法吗?我应该阅读其他论文吗?例如,是否有值得采用的自适应步长算法?轨迹长度是否有好的建议?实际上是否有更好的集成商? 有人请使其成为社区Wiki。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.