Questions tagged «simulation»

广阔的领域包括通过计算机模型生成结果。


2
如果我们已经知道后验分布,为什么需要从后验分布中采样?
我的理解是,当使用贝叶斯方法估算参数值时: 后验分布是先验分布和似然分布的组合。 我们通过从后验分​​布生成样本来模拟此过程(例如,使用Metropolis-Hasting算法生成值,如果它们超过属于后验分布的概率的某个阈值,则接受它们)。 生成此样本后,我们将使用它来近似后验分布以及诸如均值之类的东西。 但是,我觉得我一定是误会了。听起来我们有一个后验分布,然后从中进行采样,然后使用该样本作为后验分布的近似值。但是,如果我们有后验分布开始,为什么我们需要从中进行采样来近似呢?

3
如何模拟具有统计意义的数据?
我正在读10年级,正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据,并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的(0表示未服用药物,1表示已服用药物)。我正在寻找一种机器学习模型,该模型能够从一周中的时间之间的关系中学习,并将一周分为21个时间段,一天中的每个时间段分为三个时间段(1是星期一上午,2是星期一下午,等等。)。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如,在一个数据集中,我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性,要求我执行两个样本t检验,将一个时隙与其他每个时隙进行比较,并确保显着性值小于0.05。 但是,与其模拟自己的数据并检查我插入的趋势是否显着,不如倒退工作,也许我使用一个程序,要求我在一定的时隙内分配一个重要的趋势,并坚持执行。二进制数据中包含我所要求的趋势,以及其他时隙中的二进制数据,其中包含一些噪声但没有产生统计上显着的趋势。 是否有任何程序可以帮助我实现这样的目标?或者也许是python模块? 任何帮助(甚至对我的项目的一般性评论)将不胜感激!!

3
负二项式GLM与计数数据的对数转换:I型错误率增加
你们中有些人可能已经读过这篇不错的论文: O'Hara RB,Kotze DJ(2010)不要对计数数据进行对数转换。《生态与进化方法》 1:18–122。克利克。 在我的研究领域(生态毒理学)中,我们正在处理重复性较差的实验,并且GLM并未得到广泛使用。因此,我进行了类似于O'Hara&Kotze(2010)的模拟,但是模拟了生态毒理学数据。 功率模拟: 我模拟了一个有一个对照组()和5个治疗组()的阶乘设计的数据。处理1中的丰度与对照()相同,处理2-5中的丰度是对照中的丰度的一半()。对于模拟,我改变了样本大小(3、6、9、12)和对照组的丰度(2、4、8,...,1024)。从具有固定色散参数()的负二项式分布中提取丰度。使用负二项式GLM和高斯GLM +对数转换的数据生成并分析了100个数据集。μ 1 - 5 μ 1 = μ Ç μ 2 - 5 = 0.5 μ C ^ θ = 3.91μCμc\mu_cμ1 - 5μ1−5\mu_{1-5}μ1个= μCμ1个=μC\mu_1 = \mu_cμ2 - 5= 0.5 μCμ2-5=0.5μC\mu_{2-5} = 0.5 \mu_c角= 3.91θ=3.91\theta = 3.91 结果符合预期:GLM具有更大的功效,尤其是在采样的动物不多的情况下。 代码在这里。 类型I错误: 接下来,我看了一眼错误。如上所述进行模拟,但是所有组具有相同的丰度()。μC= μ1 - …

1
,预测期的模拟
我有时间序列数据,我使用ARIMA(p,d,q)+XtARIMA(p,d,q)+XtARIMA(p,d,q)+X_t作为拟合数据的模型。的XtXtX_t是指示随机变量,它是0(当我没有看到一个罕见的事件)或1(当我看到的罕见的事件)。基于我对先前观察XtXtX_t,我可以使用可变长度马尔可夫链方法开发的模型XtXtX_t。这使我能够在预测期间内模拟XtXtX_t并给出零和一的序列。由于这是罕见的事件,我不会看到Xt=1Xt=1X_t=1 。我可以根据的模拟值预测并获取预测间隔XtXtX_t。 题: 如何在预测期内考虑到模拟中1的出现,开发一种有效的模拟程序XtXtX_t?我需要获取均值和预测间隔。 观察到1的概率太小,以至于我认为常规的蒙特卡洛模拟在这种情况下会很好地工作。也许我可以使用“重要性抽样”,但是我不确定到底该怎么做。 谢谢。

1
用给定的MLE模拟随机样本
这个交叉验证问题要求模拟一个以固定金额为条件的样本,使我想起了乔治•卡塞拉(George Casella)提出的一个问题。 f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)对于一个给定的值,有以模拟IID样品一个通用的方法上的MLE的值有条件?θθ\thetaθ(X 1,... ,X Ñ)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) 例如,采用分布,位置参数为,密度为如果我们如何以条件来模拟?在此示例中,没有封闭形式的表达式。T5T5\mathfrak{T}_5μμ\muf(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(x−μ)2/5]−3f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(x−μ)2/5]−3f(x|\mu)=\dfrac{\Gamma(3)}{\Gamma(1/2)\Gamma(5/2)}\,\left[1+(x-\mu)^2/5\right]^{-3}(X1,…,Xn)∼iidf(x|μ)(X1,…,Xn)∼iidf(x|μ)(X_1,\ldots,X_n)\stackrel{\text{iid}}{\sim} f(x|\mu)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)μ^(X1,…,Xn)=μ0μ^(X1,…,Xn)=μ0\hat{\mu}(X_1,\ldots,X_n)=\mu_0T5T5\mathfrak{T}_5μ^(X1,…,Xn)μ^(X1,…,Xn)\hat{\mu}(X_1,\ldots,X_n)


2
在基于计算机的实验/模拟中残差的独立性?
我对适合古科学中使用的特定类型模型的不同方法进行了基于计算机的评估。我的训练集很大,因此我随机(分层随机抽样)留出了测试集。我为训练集样本拟合了mmm种不同的方法,并使用mmm结果模型预测了测试集样本的响应,并针对测试集中的样本计算了RMSEP。这是一次运行。 然后,我多次重复此过程,每次我通过随机采样新的测试集来选择不同的训练集。 完成此操作后,我想研究mmm种方法中的任何一种是否具有更好或更差的RMSEP性能。我还想对成对方法进行多次比较。 我的方法是拟合线性混合效果(LME)模型,并为Run提供单个随机效果。我使用lmer()了lme4软件包中的数据,以适应multcomp软件包中的模型和函数,以执行多次比较。我的模特本质上是 lmer(RMSEP ~ method + (1 | Run), data = FOO) 其中method是一个因素,指示用于生成测试集的模型预测的哪种方法,并且Run是每个特定运行的指标 “实验”的。 我的问题是关于LME的残差。给定运行的单个随机效应我假设该的RMSEP值在某种程度上相关,但在运行之间不相关,这是基于随机效应所提供的诱导相关性。 运行之间的独立性这一假设有效吗?如果不是,那么在LME模型中是否可以解决这个问题,还是我应该寻求采用其他类型的静态分析来回答我的问题?

1
在原假设下模拟二项式检验时p值的非均匀分布
我听说在零假设下,p值分布应该是均匀的。但是,在MATLAB中进行二项式检验的仿真返回的均值分布与均值大于0.5(在这种情况下为0.518)的差异非常大: coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); 尝试更改生成随机数的方式无济于事。我真的很感谢在这里的任何解释。

1
Metropolis-Hastings集成-为什么我的策略不起作用?
假设我有一个函数,我想集成 当然,假设在端点处为零,没有爆炸,功能很好。一种方式,我已经和摆弄是使用大都市斯算法来生成列表的样品从分配比例,以,其缺少归一化常数 ,我将其称为,然后在这些上计算一些统计量: g(x)g(x)g(x)∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)克(X )ñ = ∫ ∞ - ∞克(X )d X p (X )˚F (X )X 1x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_ng(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. 由于,我可以用代替以从积分中消除,从而得到形式的表达式 因此,假设沿该区域积分为,我应该得到结果,我可以取倒数来获得我想要的答案。因此,我可以取样品的范围(以最有效地利用这些点),让我绘制的每个样品的U(x)= 1 / r。这样U(x)f (x )= U (x )/ g (x )g 1p(x)=g(x)/Np(x)=g(x)/Np(x) = g(x)/Nf(x)=U(x)/g(x)f(x)=U(x)/g(x)f(x) …

2
一个具有极高可能性的真正简单模型的例子将是什么?
近似贝叶斯计算是一种非常酷的技术,适用于基本上所有随机模型,适用于似然性难以解决的模型(例如,如果您固定了参数但无法通过数值,算法或分析方法来计算似然性,则可以从模型中进行采样)。当向观众介绍近似贝叶斯计算(ABC)时,最好使用一些示例模型,该模型非常简单,但仍然有些有趣,并且具有难以克服的可能性。 一个非常简单的模型仍然有难以解决的可能性,这将是一个很好的例子吗?

1
如何从高斯copula模拟?
假设我有两个单变量边际分布,即FFF和GGG,可以从中进行模拟。现在,使用表示为C (F ,G ; Σ )的高斯copula构造它们的联合分布。所有参数都是已知的。C(F,G;Σ)C(F,G;Σ)C(F,G;\Sigma) 是否有非MCMC方法可以从此系动中模拟出来?

3
有可用的通用方法来模拟公式或分析中的数据吗?
从实验设计数据框中对数据进行从头模拟。 着重于R(尽管其他语言解决方案会很棒)。 在设计实验或调查时,模拟数据并对该模拟数据进行分析可以提供对设计优点和缺点的深刻了解。 这种方法对于理解和正确使用统计检验也可能至关重要。 但是,此过程往往有些繁琐,并且导致许多人跳过了实验或调查中的这一重要步骤。 统计模型和检验包含模拟数据所需的大多数信息(包括假设或分布的明确表述)。 给定一个分析模型(及其关联的假设,例如正态和平衡),一个因素的水平和一个显着性的量度(例如p值),我想获得模拟数据(理想情况下具有类似于print(),predict(),simulate())。 这样的通用仿真框架可能吗? 如果可以,目前是否有这样的框架? 例如,我想要一个函数,例如: sim(aov(response~factor1+factor2*factor3), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), factor3=c("A", "B", "C"))) 即: sim.lm<-function(){ library(DoE.base) design<-fac.design(nlevels=c(10,3,3), factor.names=c("factor1", "factor2", "factor3"), replications=3, randomize=F) response<-with(design, as.numeric(factor1)+ as.numeric(factor2)+ as.numeric(factor3)+ as.numeric(factor2)*as.numeric(factor3)+ rnorm(length(factor1))) simulation<-data.frame(design, response)} 要么 sim(glm(response~factor1+factor2*factor3, family=poisson), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), …

1
Box-Muller与逆CDF方法相比在模拟正态分布方面的优势?
为了从一组均匀变量中模拟正态分布,有几种技术: Box-Muller算法,其中一个对上的两个独立均匀变量进行采样,然后通过以下方法将它们转换为两个独立的标准正态分布: Ž 0 = √(0,1)(0,1)(0,1)Z0=−2lnU1−−−−−−√cos(2πU0)Z1=−2lnU1−−−−−−√sin(2πU0)Z0=−2lnU1cos(2πU0)Z1=−2lnU1sin(2πU0) Z_0 = \sqrt{-2\text{ln}U_1}\text{cos}(2\pi U_0)\\ Z_1 = \sqrt{-2\text{ln}U_1}\text{sin}(2\pi U_0) CDF方法,其中可以将普通cdf等同于一个统一变量: 并得出 F (Z )= U Z = F − 1(U )(F(Z))(F(ž))(F(Z))F(Z)= UF(ž)=ü F(Z) = U ž= F− 1(U)ž=F-1(ü)Z = F^{-1}(U) 我的问题是:哪个计算效率更高?我认为这是后者的方法-但是我阅读的大多数论文都使用Box-Muller-为什么? 附加信息: 正常CDF的逆是已知的,并给出: F− 1(Z)=2–√埃尔夫− 1(2Z−1),Z∈(0,1).F−1(Z)=2erf−1⁡(2Z−1),Z∈(0,1).F^{-1}(Z)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2Z - 1), \quad Z\in(0,1). 因此: Z=F−1(U)=2–√erf−1(2U−1),U∈(0,1).Z=F−1(U)=2erf−1⁡(2U−1),U∈(0,1). Z …

2
使用正态分布的图形模拟均匀分布的图形
我最近购买了一个数据科学面试资源,其中一个概率问题如下: 给定具有已知参数的正态分布的绘图,如何模拟均匀分布的绘图? 我最初的想法是,对于离散随机变量,我们可以将正态分布分解为K个唯一的子部分,其中每个子部分在正态曲线下的面积均相等。然后,我们可以通过识别变量最终落入法线曲线的哪个区域来确定该变量取K个值。 但这仅适用于离散随机变量。我研究了如何对连续随机变量执行相同的操作,但是不幸的是,我只能找到诸如逆变换采样之类的技术,这些技术将使用统一随机变量作为输入,并且可以从其他分布中输出随机变量。我在想,也许我们可以反向进行此过程以获得统一的随机变量? 我还考虑过可能使用Normal随机变量作为线性同余生成器的输入,但是我不确定这是否可行。 关于如何处理这个问题有任何想法吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.