Questions tagged «sampling»

使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。

2
引导程序样本的大小
我正在学习将引导程序作为估计样本统计量方差的一种方法。我有一个基本的疑问。 引用自http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf: •我们应该重新采样多少个观测值?一个很好的建议是原始样本大小。 我们如何重新采样与原始采样中一样多的观测值? 如果我的样本量为100,并且正在尝试估算均值的方差。如何从总样本量为100的样本中获取多个大小为100的引导样本?在这种情况下,只能有1个引导程序样本,这与原始样本等效吗? 我显然误会了一些非常基本的东西。据我所知,数的理想 bootstrap样本总是无限的,并确定必要的引导样品我的数据我不得不进行收敛检验的数量保持我的精度要求的初衷。 但我真搞不清楚什么应该是每一个的大小个体引导样品。


2
混合分布的CDF逆采样
上下文外的简短版本 令为CDF yyyF(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} 假设我想使用反CDF方法模拟绘制。那可能吗?此函数不完全具有逆函数。然后再次有两个正态分布的混合分布的逆变换采样,这表明这里有一种已知的方法可以应用逆变换采样。yyy 我知道两步法,但是我不知道如何将其应用于我的情况(请参见下文)。 带背景的长版 我使用MCMC(特别是Stan)为向量值响应拟合了以下模型:yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = \left( y_1 , \dots , y_K \right)^i θik≡logit−1(αkxi),μik≡βkxi−σ2k2F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = …

4
当您不知道分布时如何采样
我是统计学的新手(一些初学者的Uni课程),并且想知道是否从未知分布中进行采样。具体来说,如果您不了解基本分布,是否有任何方法可以“保证”获得代表性样本? 举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以以某种方式找出他们的确切财富;但您无法“采样”地球上的每个人。因此,假设您随机抽样了n = 1000个人。 如果您的样本中不包括比尔·盖茨,您可能会认为不存在亿万富翁。 如果您的样本确实包括比尔·盖茨,您可能会认为亿万富翁比他们实际更为普遍。 无论哪种情况,您都无法真正分辨出亿万富翁的普通或罕见。您甚至可能根本无法判断是否存在任何内容。 对于这种情况,是否存在更好的采样机制? 您如何告诉先验使用哪种采样程序(以及需要多少个样本)? 在我看来,您可能必须“抽样”大量人口,以某种合理的确定性来了解地球上有多少普通或稀有的亿万富翁,这是由于基本的分布有点困难跟...共事。

4
(交互)MCMC用于多模式后路
我正在尝试使用MCMC从具有多种模式的后验样本中进行采样,这些模式之间的距离特别远。看起来在大多数情况下,这些模式中只有一种包含我要寻找的95%hpd。我试图实现基于回火模拟的解决方案,但这不能提供令人满意的结果,因为在实践中,从一种“捕获范围”到另一种“捕获范围”是昂贵的。 因此,在我看来,更有效的解决方案是从不同的起点运行许多简单的MCMC,并通过使MCMC相互交互而进入主导解决方案。您知道是否有实施此想法的适当方法? 注意:我发现http://lccc.eecs.berkeley.edu/Papers/dmcmc_short.pdf(分布式马尔可夫链Monte Carlo,Lawrence Murray)看上去很接近我在寻找的东西,但我真的不理解设计的函数。[R一世[R一世R_i [编辑]:缺少答案似乎表明我的最初问题没有明显的解决方案(使从不同起点从相同目标分布进行采样的多个MCMC相互交互)。真的吗 ?为什么这么复杂?谢谢


1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


3
如何使用1%的微数据样本大规模地模拟小区域的人口普查微数据,以及如何在小区域尺度上进行汇总统计?
我想在较小的地理汇总水平(澳大利亚人口普查收集区)中执行个人级别的多元分析。显然,出于隐私原因,无法在这些较小的汇总级别进行人口普查,因此我正在研究其他替代方案。几乎所有感兴趣的变量都是分类变量。我有两个数据集可供使用: 1%的人口普查样本可用于更高级别的空间聚集(一个人口约为190,000且人口统计学的空间分隔较大的区域)。 我在小区域级别上感兴趣的变量的频率表(500个小区域,平均pop = 385,sd = 319,中位数= 355)。 如何使用这两个数据集在小面积级别模拟尽可能接近小面积实际人口的人口分布? 我很欣赏可能有常规的方法来执行此操作;如果是这样,将非常感谢您提供教科书或相关期刊文章的指针。

3
候选人分布均匀的都市空港大学的录取率
当使用均一的候选分布运行Metropolis-Hastings算法时,接受率大约为20%的原理是什么? 我的想法是:一旦找到了真实的(或接近真实的)参数值,那么就不会有来自相同均匀间隔的任何新的候选参数值集会增加似然函数的值。因此,我运行的迭代次数越多,我应该得到的接受率就越低。 我的想法在哪里错了?非常感谢! 这是我的计算的说明: Acceptance_rate=exp{l(θc|y)+log(p(θc))−[l(θ∗|y)+log(p(θ∗)]},Acceptance_rate=exp⁡{l(θc|y)+log⁡(p(θc))−[l(θ∗|y)+log⁡(p(θ∗)]},Acceptance\_rate = \exp \{l(\theta_c|y) + \log(p(\theta_c)) - [l(\theta^*|y) + \log(p(\theta^*) ]\}, 其中是对数似然。lll 由于候选对象始终取自相同的均匀间隔,θθ\theta p(θc)=p(θ∗).p(θc)=p(θ∗).p(\theta_c) = p(\theta^*). 因此,接受率的计算可缩减至: Acceptance_rate=exp{l(θc|y)−[l(θ∗|y)]}Acceptance_rate=exp⁡{l(θc|y)−[l(θ∗|y)]}Acceptance\_rate = \exp \{l(\theta_c | y) - [l(\theta^* | y) ]\} 的接受规则如下:θcθc\theta_c 如果,其中是从区间均匀分布得出的,则U≤Acceptance_rateU≤Acceptance_rateU \le Acceptance\_rate UUU[0,1][0,1][0,1] θ∗=θc,θ∗=θc,\theta^* = \theta_c, 否则从间隔均匀分布中θcθc\theta_c[θmin,θmax][θmin,θmax][\theta_{min}, \theta_{max}]



1
我可以基于事件发生的随机采样来估计事件的发生频率吗?
进行了一些修改... 这个问题只是为了好玩,因此,如果它不好玩,请随时忽略它。我已经从该站点获得了很多帮助,所以我不想咬我的手。它基于一个现实生活中的示例,这只是我想知道的很多事情。 我周一至周五参观了当地的道场,基本上是随机训练。假设我每周拜访两次。这意味着我每周要访问两次,只有两天不一样。每当我在那里时,几乎都有一个人在那里。如果他和我在同一天访问,那么我将会见到他。假设我在90%的时间在那里。我想知道两件事: 1)他多久训练一次 2)他是随机来还是在一周的固定日期来。 我猜想也许我们必须假设一个人猜另一个?我真的一无所获。我只是在每个星期的热身活动中都在想这件事,并且感到莫名其妙。即使有人给我一个思考问题的方法,我也将不胜感激。 干杯!


2
使用MCMC从已知密度的双变量分布中抽样
我尝试使用R中的Metropolis算法从二元密度进行模拟,但是没有运气。密度可以表示为 ,其中是Singh-Maddala分布p (X ,ÿ)p(X,ÿ)p(x,y)p (ÿ| x)p(x)p(ÿ|X)p(X)p(y|x)p(x)p (x )p(X)p(x) p(x)=aqxa−1ba(1+(xb)a)1+qp(x)=aqxa−1ba(1+(xb)a)1+qp(x)=\dfrac{aq x^{a-1}}{b^a (1 + (\frac{x}{b})^a)^{1+q}} 参数,q,b和p(y | x)是对数正态的,其中log-mean是x的分数,而log-sd是常数。为了测试我的样本是否是我想要的样本,我查看了x的边际密度,其应为p(x)。我尝试了R包MCMCpack,mcmc和dream中的不同Metropolis算法。我舍弃了老化,使用细化处理,使用了大小不超过100万的样本,但是由此产生的边际密度从来不是我提供的那种。aaaqqqbbbp(y|x)p(y|x)p(y|x)xxxxxxp(x)p(x)p(x) 这是我使用的代码的最终版本: logvrls <- function(x,el,sdlog,a,scl,q.arg) { if(x[2]>0) { dlnorm(x[1],meanlog=el*log(x[2]),sdlog=sdlog,log=TRUE)+ dsinmad(x[2],a=a,scale=scl,q.arg=q.arg,log=TRUE) } else -Inf } a <- 1.35 q <- 3.3 scale <- 10/gamma(1 + 1/a)/gamma(q - 1/a)* gamma(q) Initvrls <- function(pars,nseq,meanlog,sdlog,a,scale,q) { cbind(rlnorm(nseq,meanlog,sdlog),rsinmad(nseq,a,scale,q)) } library(dream) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.