Questions tagged «simulation»

广阔的领域包括通过计算机模型生成结果。


8
如何模拟满足特定约束(例如具有特定均值和标准偏差)的数据?
这个问题是由我的荟萃分析问题引起的。但是我想这对于在您要创建与现有已发布数据集完全相同的数据集的教学环境中也很有用。 我知道如何从给定的分布中生成随机数据。因此,例如,如果我读到了一项研究的结果,该研究具有: 平均102 标准偏差5.2 样本大小为72。 我可以rnorm在R中使用生成类似的数据。例如, set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) 当然,平均值和标准差将分别不完全等于102和5.2: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 通常,我对如何模拟满足一组约束的数据感兴趣。在上述情况下,约束条件是样本大小,均值和标准差。在其他情况下,可能会有其他限制。例如, 可能知道数据或基础变量的最小值和最大值。 可能已知该变量仅采用整数值或仅采用非负值。 数据可能包含具有相互关系的多个变量。 问题 通常,我该如何模拟完全满足一组约束的数据? 是否有关于此的文章?R中是否有任何程序可以做到这一点? 为了举例说明,我应该并且应该如何模拟变量,使其具有特定的均值和sd?

2
如何模拟人工数据进行逻辑回归?
我知道我对逻辑回归的理解中缺少一些东西,非常感谢您的帮助。 据我所知,逻辑回归假设给定输入的结果为“ 1”的概率是通过逆逻辑函数传递的输入的线性组合。以下R代码对此进行了举例说明: #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 …

6
何时使用模拟?
因此,这是一个非常简单而愚蠢的问题。但是,当我在学校的时候,我很少关注课堂上模拟的整个概念,这让我对这一过程有些恐惧。 您能以外行术语解释模拟过程吗?(可能用于生成数据,回归系数等) 使用模拟时有哪些实际情况/问题? 我希望在R中给出任何示例。
40 simulation 

2
Logistic回归功效分析的仿真-设计的实验
这个问题是对@Greg Snow给出的答案的回应,该答案是我提出的有关使用Logistic回归和SAS进行功率分析的问题Proc GLMPOWER。 如果我正在设计一个实验并将对结果进行析因逻辑回归分析,该如何使用模拟(和此处)进行功效分析? 这是一个简单的示例,其中有两个变量,第一个具有三个可能的值{0.03,0.06,0.09},第二个是虚拟指示器{0,1}。对于每种组合,我们估计每种组合的响应率(响应者数量/投放市场的人数)。此外,我们希望因子的第一个组合的数量是其他因子的3倍(可以认为是相等的),因为该第一个组合是我们尝试过的真实版本。这种设置类似于链接问题中提到的SAS课程中给出的设置。 用于分析结果的模型将是具有主要影响和相互作用(响应为0或1)的逻辑回归。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) 如何模拟用于此模型的数据集进行功率分析? 当我通过SAS运行时Proc GLMPOWER(使用STDDEV =0.05486016 对应于sqrt(p(1-p))其中p是显示的响应率的加权平均值): data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …



2
自举如何很好地估计估计量的采样分布?
最近研究了引导程序后,我想到了一个概念性问题,但仍然使我感到困惑: 您有一个人口,并且想知道一个人口属性,即,在这里我用代表人口。例如,这个可能是人口平均值。通常,您无法从总体中获取所有数据。因此,您从总体中得出了大小为的样本为了简单起见,假设您有iid示例。然后,您获得估算器。您想使用来推断,因此您想知道的可变性 。P θ X Ñ θ = 克(X )θ θ θθ = 克(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXñNNθ^= 克(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} 首先,存在的真实采样分布。从概念上讲,您可以从总体中抽取许多样本(每个样本的大小均为)。每次您都有因为每次您都有不同的样本。然后最后,您将能够恢复的真实分布。好的,至少这是估算分布的概念基准。让我重申一下:最终目标是使用各种方法来估计或近似的真实分布。 Ñ θ =克(X)θ^θ^\hat{\theta}ñNNθ^= 克(X)θ^=g(X)\hat{\theta}=g(X) θθ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} 现在,问题来了。通常,只有一个样本包含数据点。然后,您可以多次从该样本中重新采样,然后得出的引导分布。我的问题是:此引导分布与的真实采样分布有多接近?有没有量化的方法?Ñ θXXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


1
自适应MCMC可以信任吗?
我正在阅读有关自适应MCMC的信息(例如,参见《马尔可夫链蒙特卡洛手册》第4章,布鲁克斯等人,2011年;Andrieu和Thoms,2008年)。 nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 该结果是(后验的)直观的,渐近的。由于适应量趋于零,因此最终不会与遍历无关。我担心的是有限的时间会发生什么。 我们如何知道在给定的有限时间内适应性并不会破坏遍历性,并且采样器正在从正确的分布中采样?如果完全有道理,一个人应该做多少磨合以确保早期适应不会使链条产生偏差? 该领域的从业者是否信任自适应MCMC?我问的原因是因为我已经看到许多最近的方法,这些方法尝试以已知的其他各种更复杂的方式(包括再生或整体方法)以其他更复杂的方式建立适应性(例如,选择过渡是合法的)取决于其他平行链状态的运算符)。可替代地,仅在老化期间(例如在Stan中)执行调整,而不在运行时执行。所有这些努力向我暗示,罗伯茨和罗森塔尔的自适应MCMC(实施起来非常简单)并不可靠;但也许还有其他原因。 那么具体的实现又如何呢?比如自适应都市(Hario等,2001)? 参考文献 Rosenthal,JS(2011)。最佳提案分配和自适应MCMC。马尔可夫链手册蒙特卡罗,93-112。 Andrieu,C.和Thoms,J.(2008年)。关于自适应MCMC的教程。统计与计算,18(4),343-373。 Roberts,GO和Rosenthal,JS(2007)。自适应马尔可夫链蒙特卡罗算法的耦合和遍历性。应用概率杂志,458-475。 Haario H.,Saksman E.和Tamminen J.(2001)。自适应Metropolis算法。伯努利(Bernoulli),223-242。


2
模拟给定功率和互谱密度的时间序列
给定它们的协方差矩阵(它们的功率谱密度(PSD)和交叉功率谱密度(CSD)),我很难生成一组固定的彩色时间序列。 我知道,给定两个时间序列和,我可以使用许多广泛使用的例程来估算其功率谱密度(PSD)和交叉谱密度(CSD)。和Matlab等中的功能。PSD和CSD组成协方差矩阵: yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)psd()csd()C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, ,通常是频率的函数。 fff 如果我想做相反的事情怎么办? 给定协方差矩阵,如何生成和y_ {J}(t)的实现?yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t) 请包括任何背景理论,或指出执行此操作的任何现有工具(Python中的任何工具都很好)。 我的尝试 以下是我尝试过的内容以及我注意到的问题的描述。本书读了很长一段时间,如果其中包含误用的术语,则抱歉。如果可以指出错误的地方,那将非常有帮助。但是我的问题是上面的粗体字。 PSD和CSD可以写为时间序列傅立叶变换的乘积的期望值(或整体平均值)。因此,协方差矩阵可以表示为: C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, 其中 ÿ(˚F)= (y〜一世(f)ÿ〜Ĵ(f))。ÿ(F)=(ÿ〜一世(F)ÿ〜Ĵ(F))。 \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 协方差矩阵是Hermitian矩阵,其实特征值可以为零或为正。因此,可以将其分解为 Ç(˚F)= X(f)λ1个2(f)一世λ12(f)X†(f),C(F)=X(F)λ1个2(F)一世λ1个2(F)X†(F), \mathbf{C}(f) …


3
稀有事件逻辑回归偏差:如何用一个最小的例子模拟被低估的p?
CrossValidated对于何时以及如何应用King和Zeng(2001)的罕见事件偏差校正有几个问题。我正在寻找与众不同的东西:一个基于模拟的最小演示,证明存在偏差。 特别是国王和曾国 “……在极少数事件数据中,几千个样本量的概率偏差可能实际上是有意义的,并且处于可预测的方向:估计的事件概率太小。” 这是我尝试模拟R中的这种偏差: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not constant, assume …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.