Questions tagged «simulation»

广阔的领域包括通过计算机模型生成结果。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

4
统计模拟说明
我不是统计学家。所以,请忍受我的错误。 您能以简单的方式说明仿真是如何完成的吗?我知道它会从正态分布中抽取一些随机样本并用于模拟。但是,不清楚。
10 simulation 

1
与抽样成本
我遇到了以下模拟问题:给定一组已知实数的,在上的分布由 其中表示的正数。虽然我可以靶向这种分布认为大都市,黑斯廷斯样的,我不知道是否存在一个有效的直接取样,取大量的零个概率的优势,从降低算法的顺序至。{ - 1 ,1 } d P(X = (X 1,... ,X d))α (X 1 ω 1 + ... + X d ω d )+(Ž )+ ž O (2 d)O (d ){ω1,…,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{−1,1}d{−1,1}d\{-1,1\}^dP(X=(x1,…,xd))∝(x1ω1+…+xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+(z)+(z)+(z)_+zzzO (2d)Ø(2d)O(2^d)Ø (d)Ø(d)O(d)

1
具有模拟功能的重要性抽样低于预期的覆盖率
我正在尝试回答R中的重要性抽样评估方法积分问题。基本上,用户需要计算 ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx 使用指数分布作为重要性分布 q(x)=λ exp−λxq(x)=λ exp−λxq(x)=\lambda\ \exp^{-\lambda x} 并找到的值,该值可以更好地逼近积分(是)。我重铸问题,因为平均值的评价μ的˚F (X )超过[ 0 ,π ]:积分然后只是π μ。 λλ\lambdaself-studyμμ\muf(x)f(x)f(x)[0,π][0,π][0,\pi]πμπμ\pi\mu 因此,让是的PDF X 〜ù(0 ,π ),并且让ÿ 〜˚F (X ):现在的目标是估计p(x)p(x)p(x)X∼U(0,π)X∼U(0,π)X\sim\mathcal{U}(0,\pi)Y∼f(X)Y∼f(X)Y\sim f(X) μ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫π01cos(x)2+x21πdxμ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫0π1cos⁡(x)2+x21πdx\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx 使用重要性抽样。我在R中进行了仿真: # clear the environment and set the seed for reproducibility rm(list=ls()) gc() graphics.off() set.seed(1) # function to be integrated f <- function(x){ 1 …

2
用异方差模拟线性回归
我正在尝试模拟与我拥有的经验数据匹配的数据集,但是不确定如何估算原始数据中的错误。经验数据包括异方差性,但是我不希望将其转换掉,而是使用带有误差项的线性模型来再现经验数据的模拟。 例如,假设我有一些经验数据集和一个模型: n=rep(1:100,2) a=0 b = 1 sigma2 = n^1.3 eps = rnorm(n,mean=0,sd=sqrt(sigma2)) y=a+b*n + eps mod <- lm(y ~ n) 使用plot(n,y)我们得到以下内容。 但是,如果尝试模拟数据simulate(mod),则异方差性将被删除并且不会被模型捕获。 我可以使用广义最小二乘法模型 VMat <- varFixed(~n) mod2 = gls(y ~ n, weights = VMat) 可以基于AIC提供更好的模型拟合,但是我不知道如何使用输出来模拟数据。 我的问题是,如何创建一个模型,使我能够模拟数据以匹配原始的经验数据(上述n和y)。具体来说,我需要一种使用模型来估算sigma2的方法吗?

1
计算多个期望值时如何最佳地分布抽奖
假设我们要计算一些期望值: EYEX|Y[f(X,Y)]EYEX|Y[f(X,Y)]E_YE_{X|Y}[f(X,Y)] 假设我们要使用蒙特卡洛模拟对此进行近似。 EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) 但是,假设从这两个分布中抽取样本成本很高,因此我们只能承受绘制固定数。 KKK 我们应该如何分配?示例包括每种分布的抽奖,或者极端情况下,外部抽奖,内部为抽奖,反之亦然,等等。K / 2 K − 1KKKK/2K/2K/2K−1K−1K-1 我的直觉告诉我,这将与分布相对于彼此的方差/熵有关。假设外一个是质点,则分割最小化MC误差将被绘制的1和绘制的的。 ÿKKKYYYX | ÿK−1K−1K-1X|YX|YX|Y 希望这很清楚。


1
估计多级Logistic回归模型
以下多级逻辑模型,其中一个解释变量在级别1(个人级别),一个解释变量在级别2(组级别): π 0 Ĵ = γ 00 + γ 01 ż Ĵ + ü 0 Ĵ ... (2 )logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0 Ĵ= γ00+ γ01žĴ+ 你0 Ĵ… (2 )π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1 Ĵ= γ10+ γ11žĴ+ 你1 Ĵ… (3 )π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) 其中,假定组级别残差ü0 Ĵu0ju_{0j}和ü1 Ĵu1ju_{1j}具有期望值为零的多元正态分布。残留误差 u_ {0j}的方差ü0 Ĵu0ju_{0j}指定为σ20σ02\sigma^2_0,残留误差u_ {1j}的方差 ü1 Ĵu1ju_{1j}指定为σ21个σ12\sigma^2_1。 我想估算模型的参数,并且喜欢使用 Rcommand glmmPQL。 …

2
混合分布的CDF逆采样
上下文外的简短版本 令为CDF yyyF(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} 假设我想使用反CDF方法模拟绘制。那可能吗?此函数不完全具有逆函数。然后再次有两个正态分布的混合分布的逆变换采样,这表明这里有一种已知的方法可以应用逆变换采样。yyy 我知道两步法,但是我不知道如何将其应用于我的情况(请参见下文)。 带背景的长版 我使用MCMC(特别是Stan)为向量值响应拟合了以下模型:yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = \left( y_1 , \dots , y_K \right)^i θik≡logit−1(αkxi),μik≡βkxi−σ2k2F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = …

1
如何解释套索模型中排除或包含的变量?
我从其他帖子中得知,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的p值或标准差仍在进行中。 在这种推理下,断言一个人不能说套索模型中排除的变量是“无关紧要”还是“无关紧要”是正确的吗? 如果是这样,对于套索模型中排除或包含的变量,我实际上能提出什么主张?在我的特定情况下,我通过重复10次交叉验证100次来选择调整参数lambda,以减少randonmess并平均误差曲线。 UPDATE1:我遵循以下建议,并使用引导程序示例重新运行套索。我试了100个样本(这是我的计算机功能可以在一夜之间解决的数量),并且出现了一些模式。我的41个变量中的2个进入模型的次数超过95%,3个变量超过90%,5个变量超过85%。当我使用原始样本运行模型时,这5个变量属于进入模型的9个变量,是当时系数值最高的变量。如果我运行带有1000个引导程序样本的套索并且保留了这些模式,那么呈现结果的最佳方法是什么? 1000个引导程序样本听起来是否足够?(我的样本大小为116) 我是否应该列出所有变量以及它们进入模型的频率,然后认为输入频率更高的变量更有意义? 就我所能要求的范围而言吗?因为它正在进行中(请参见上文),所以我不能使用截止值,对吗? UPDATE2:根据以下建议,我计算出以下内容:平均而言,原始模型中的变量有78%进入了为100个自举样本生成的模型。另一方面,反之则只有41%。这在很大程度上与以下事实有关:为引导程序样本生成的模型往往比原始模型(9)包含更多的变量(平均17个)。 UPDATE3:如果你能帮助我解释我是从引导和蒙特卡罗模拟得到的结果,请看看这个其他职位。

1
将概率收敛模拟为常数
渐近结果不能通过计算机仿真来证明,因为它们是涉及无穷大概念的陈述。但是我们应该能够感觉到事情确实按照理论告诉我们的方式前进了。 考虑理论结果 limn→∞P(|Xn|>ϵ)=0,ϵ>0林ñ→∞P(|Xñ|>ϵ)=0,ϵ>0\lim_{n\rightarrow\infty}P(|X_n|>\epsilon) = 0, \qquad \epsilon >0 其中是随机变量的函数,它们是相同且独立分布的。这表示的概率收敛到零。我想这里的原型示例是是样本均值减去样本的iidrv的共同期望值的情况,XnXñX_nnñnXnXñX_nXnXñX_n Xn=1n∑i=1nYi−E[Y1]Xñ=1个ñ∑一世=1个ñÿ一世-Ë[ÿ1个]X_n = \frac 1n\sum_{i=1}^nY_i - E[Y_1] 问题: 我们如何通过使用来自有限样本的计算机模拟结果来令人信服地证明上述关系“在现实世界中得以实现”? 请注意,我特别选择了收敛为常数。 我在下面提供我的方法作为答案,并希望有更好的方法。 更新:我脑后的东西困扰着我-我发现了什么。我挖出一个较旧的问题,在对一个答案的评论中进行了最有趣的讨论。在这里,@ Cardinal提供了一个估计量的示例,该估计量是一致的,但其方差保持非零且渐近地为有限。因此,我的问题变得更加棘手:当模拟统计量渐近地保持非零和有限方差时,如何通过模拟证明统计量收敛于常数呢?

3
评估正态性检验的功效(用R表示)
我想评估R中不同样本量的正态性检验的准确性(我意识到正态性检验可能会产生误导)。例如,要查看Shapiro-Wilk检验,我正在进行以下模拟(以及绘制结果),并希望随着样本数量的增加,拒绝null的可能性降低: n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in 10:n){ x1 <- rnorm(i, mean = 0, sd = 1) pvalue_mat[i,] <- shapiro.test(x1)$p.value } plot(pvalue_mat) 我的想法是,随着样本数量的增加,拒绝率应该会降低,但是看起来相当一致。我想我对此有误解-任何想法都欢迎。

2
模拟数据以适应中介模型
我有兴趣找到一种过程来模拟与指定的中介模型一致的数据。根据测试调解模型的一般线性结构方程模型框架,该模型首先由Barron和Kenny(1986)概述,并在Judd,Yzerbyt和Muller(2013)等其他地方进行了介绍,其结果模型为调解模型YYY,介体和预测变量,并由以下三个回归方程式控制: 通过对 的间接作用或中介作用可以定义为或等效地定义为。在旧的调解测试框架下,通过测试方程式1中的,建立了调解medmed\newcommand{\med}{\rm med} \medXXXYmedY=b11+b12X+e1=b21+b22X+e2=b31+b32X+b32med+e3(1)(2)(3)(1)Y=b11+b12X+e1(2)med=b21+b22X+e2(3)Y=b31+b32X+b32med+e3\begin{align} Y &= b_{11} + b_{12}X + e_1 \tag{1} \\ \med &= b_{21} + b_{22}X + e_2 \tag{2} \\ Y &= b_{31} + b_{32}X + b_{32} \med + e_3 \tag{3} \end{align}XXXYYYmedmed\medb22b32b22b32b_{22}b_{32}b12−b32b12−b32b_{12}-b_{32}b12b12b_{12}b22b22b_{22}等式2中的。b32b32b_{32} 到目前为止,我已经尝试使用in 来模拟与各种回归系数的值一致的和值,例如以下代码:medmed\medYYYrnormR x <- rep(c(-.5, .5), 50) med <- 4 + .7 * x + …

1
使用分类变量模拟逻辑回归数据
我正在尝试为逻辑回归创建一些测试数据,并且发现了这篇文章如何模拟逻辑回归的人工数据? 这是一个很好的答案,但它仅创建连续变量。对于与链接相同的示例,与y关联的具有5个级别的分类变量x3(ABCDE)如何处理?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.