Questions tagged «sampling»

使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。

4
在Scrabble中不从一包字母中提取单词的可能性
假设您有一个带有nnn磁贴的袋子,每个磁贴上都有一个字母。有nAnAn_A以字母“A”,瓷砖nBnBn_B与“B”,等等,和n∗n∗n_*通配符”砖(我们有n=nA+nB+…+nZ+n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_*)。假设您有一本单词数量有限的字典。您可以从袋子中挑选kkk块瓷砖,而无需更换。给定所选的kkk图块,您如何计算(或估计)从字典中形成零个单词的概率? 对于不熟悉Scrabble(TM)的用户,可以使用通配符来匹配任何字母。因此,单词[ BOOT ]可以用图块“ B”,“ *”,“ O”,“ T”“拼写”。 为了对问题的规模有一些了解,kkk很小,例如7,nnn大约为100,并且字典包含大约100,000个大小为kkk或更小的单词。 编辑: “形成单词”是指长度不超过的单词kkk。因此,如果单词[ A ]在字典中,那么即使从包中画出一个“ A”,也可以“形成一个单词”。如果可以假设字典中存在长度为1的单词,则可以大大简化通配符的问题。如果有的话,通配符的任何抽签会自动匹配长度为1个字的单词,因此,人们可以专注于没有通配符的情况。因此,问题的较滑形式在词典中没有1个字母的单词。 另外,我应该明确指出从书包中提取字母的顺序并不重要。人们不必按单词的“正确”顺序绘制字母。

8
如何估算参加活动的人数(例如政治集会)?
一名学生今天问我:“他们怎么知道有多少人参加了大型团体活动,例如华盛顿特区的斯图尔特/科尔伯特“恢复理智集会”?新闻媒体报道的估计数成千上万,但是用什么方法来获得这些估计,它们的可靠性如何? 一篇文章显然基于他们的停车许可估算...但是我们还有哪些其他技术?请注意,我不是在谈论捕获/捕获实验或类似的东西。 我不知道 我会事先猜测,对于这样的事情,没有具体的方法,而且有什么特别的条件(例如出售了多少停车许可证)。这是真的?为了国家安全的目的-当然-可以让一名分析员坐下来看卫星照片,然后实际计算那里的人数。我怀疑这种方法是否经常使用。

2
来自Dirichlet分布图
比方说,我们有一个狄利克雷分布维向量参数→交通α = [ α 1,α 2,。。。,α ķ ]。如何从该分布中绘制样本(K维矢量)?我需要一个(可能)简单的解释。ķķKα⃗ = [ α1个,α2,。。。,αķ]α→=[α1个,α2,。。。,αķ]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]ķķK

1
有限校正因子的说明
我了解,当从有限总体中进行抽样并且我们的样本量大于总体的5%时,我们需要使用以下公式对样本的均值和标准误进行校正: FPC= N− nñ− 1----√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} 其中是总体数量,是样本数量。ññNNñnn 我对此公式有3个问题: 为什么将阈值设置为5%? 公式是如何得出的? 是否有全面的解释,除了这个公式其他在线资源,这个文件?

2
IID数据的悖论(至少对我而言)
就我在统计上的综合(和稀缺)知识而言,我理解如果是同上的随机变量,则该术语暗示它们是独立且均等分布的。X1个,X2,。。。,XñX1,X2,...,XnX_1, X_2,..., X_n 我在这里关心的是iid样本的前一个属性,其内容为: p (Xñ| X一世1个,X一世2,。。。,X一世ķ)= p (Xñ),p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 对于不同 st任何集合。 1 ≤ 我Ĵ &lt; Ñ一世Ĵiji_j1 ≤ 我Ĵ&lt; n1≤ij&lt;n1 \leq i_j < n 但是,人们知道,具有相同分布的独立样本的集合提供了有关分布结构的信息,因此,在上述情况下,还提供了有关的信息,因此,实际上不应该是: p (X Ñ | X 我1,X 我2,。。。,X 我ķ)= p (X Ñ)。XñXnX_np (Xñ| X一世1个,X一世2,。。。,X一世ķ)= p (Xñ)。p(Xñ|X一世1个,X一世2,。。。,X一世ķ)=p(Xñ)。p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). 我知道我是谬论的受害者,但我不知道为什么。请帮我解决这个问题。

1
从MCMC样本计算边际可能性
这是一个反复出现的问题(请参阅本文,本文和文章),但是我有不同的看法。 假设我有一堆来自通用MCMC采样器的采样。对于每个样本,我知道对数似然和对数在先。如果有帮助,我也知道每个数据点的对数似然值\ log f(x_i | \ theta)(此信息对某些方法(例如WAIC和PSIS-LOO)有所帮助)。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 我想仅凭我拥有的样本以及可能的其他一些功能评估(但不重新运行即席 MCMC)来获得(粗略)边际可能性的估计。 首先,让我们清除表。众所周知,谐波估计器是有史以来最差的估计器。让我们继续前进。如果使用封闭形式的先验和后验进行Gibbs采样,则可以使用Chib方法。但是我不确定如何在这些情况之外进行概括。还有一些方法需要您修改采样过程(例如通过回火的后验者),但是我对此并不感兴趣。 我正在考虑的方法包括用参数(或非参数)形状g(\ theta)近似基础分布g(θ)g(θ)g(\theta),然后将归一化常数ZZZ视为一维优化问题(即,使某些误差最小的ZZZ之间Zg(θ)Zg(θ)Z g(\theta)和f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)评价对样品)。在最简单的情况下,假设后验近似为多元法线,我可以将g(\ theta)拟合g(θ)g(θ)g(\theta)为多元法线,并得到类似于拉普拉斯近似的东西(我可能想使用一些其他函数求值来细化位置模式)。但是,我可以将其用作g(θ)g(θ)g(\theta)更灵活的族,例如多元ttt分布的变体混合。 我知道只有在Zg(θ)Zg(θ)Z g(\theta)是f(\ textbf {x} | \ theta)f(\ theta)的合理近似值的情况下,此方法才有效f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta),但是任何理由或谨慎的说法对于为什么这样做都是非常不明智的会吗 您会建议阅读吗? 完全非参数方法使用一些非参数族,例如高斯过程(GP),来近似logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)(或其一些其他非线性变换,例如(作为平方根)和贝叶斯正交,以隐式集成基础目标(请参见此处和此处)。这似乎是一种有趣的替代方法,但在精神上是类似的(另请注意,就我而言,全科医生会很笨拙)。


1
Logistic回归抽样是否应反映1和0的实际比率?
假设我想创建一个逻辑回归模型,该模型可以根据树木的特征(身高)估算一些生活在树木上的动物物种的发生概率。和往常一样,我的时间和金钱有限,因此我只能收集有限的样本量。 我有以下问题: 样本中1和0的比率是否可以反映1和0的真实比率?(至少大约是)我注意到,使用均衡样本(1和0的数目相等)执行逻辑回归模型是一种常见的做法 -但是这样的模型给出了超现实的出现概率-对吗? 我是否可以使用任何文章/教科书来支持这种观点,即那些不能反映1和0的真实比率的模型是“ 错误的 ”?** 最后:根据Imai等人的说法,是否可以执行1:1采样并随后使用tau校正模型。2007年? 今井浩辅,加里·金和奥利维亚·刘。2007年。“ relogit:稀有事件二分因变量的逻辑回归”,作者Imai,Gary King和Olivia Lau,“ Zelig:每个人的统计软件”,http://gking.harvard.edu/zelig。 点表示树木(红色=已占用,灰色=未占用)。我能够以100%的精度(1)识别所有占用的树木,但是我无法测量森林中的所有树木。每个采样策略(比率)的模型都不相同。

2
使用给定的样本协方差矩阵生成数据
给定协方差矩阵,如何生成数据,使其具有样本协方差矩阵\ hat {\ boldsymbol \ Sigma} = \ boldsymbol \ Sigma_s?ΣsΣs\boldsymbol \Sigma_sΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s 更笼统地说:我们经常对从密度f(x \ vert \ boldsymbol \ theta)生成数据感兴趣f(x|θ)f(x|θ) f(x \vert \boldsymbol\theta) ,其中数据xxx给出了一些参数矢量θθ\boldsymbol\theta。这产生了一个样本,然后我们可以据此再次估计值θ^θ^\boldsymbol{\hat\theta}。我感兴趣的是一个反向问题:如果给我们一组参数θsθs\boldsymbol\theta_{s},并且我们想生成一个样本xxx例如\ boldsymbol {\ hat \ theta} = \ boldsymbol,该怎么办?\ theta_ {s}θ^=θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s}。 这是一个已知问题吗?这样的方法有用吗?有可用的算法吗?

1
为什么方差的采样分布是卡方分布?
该声明 样本方差的样本分布是自由度等于的卡方分布,其中是样本大小(假设感兴趣的随机变量是正态分布的)。nn−1n−1n-1nnn 资源 我的直觉 这对我来说有点直觉,1)因为卡方检验看起来像是平方和; 2)卡方分布只是正态分布的平方和。但是,我对此仍然不太了解。 题 这句话是真的吗?为什么?

5
回归中不平衡数据的采样
关于在分类环境中处理不平衡数据一直存在很好的问题,但是我想知道人们如何做抽样以进行回归。 假设问题域对符号非常敏感,但对目标的大小仅敏感一些​​。但是,数量级非常重要,以至于模型应该是回归(连续目标)而不是分类(正与负分类)。并说在此问题域中,任何训练数据集的负面结果都比正面目标多10倍。 在这种情况下,我可能会对正目标示例进行过度采样以匹配负目标示例的数量,然后训练一个模型来区分这两种情况。显然,训练方法对不平衡数据的处理效果很差,因此我需要进行某种采样。在做出预测时,有什么体面的方法可以“撤消”这种过采样?也许用自然训练数据目标的(负)均值或中值进行翻译?


1
我只是发明了一种用于分析ROC曲线的贝叶斯方法吗?
前言 这是一个很长的帖子。如果您正在重新阅读本文档,请注意,尽管背景材料保持不变,但我已经修改了问题部分。此外,我相信我已经设计出解决该问题的方法。该解决方案显示在帖子的底部。感谢CliffAB指出我的原始解决方案(从该帖子中编辑;请参阅该解决方案的编辑历史)必定产生了偏差估计。 问题 在机器学习分类问题中,评估模型性能的一种方法是通过比较ROC曲线或ROC曲线下的面积(AUC)。但是,据我观察,对ROC曲线的可变性或AUC的估计很少进行讨论。也就是说,它们是根据数据估算的统计信息,因此存在一些与之相关的错误。表征这些估计中的误差将有助于表征,例如,一个分类器是否确实优于另一个分类器。 为了解决这个问题,我开发了以下方法(称为ROC曲线的贝叶斯分析)。我对这个问题的思考有两个主要观察结果: ROC曲线由来自数据的估计数量组成,并且适合贝叶斯分析。 ROC曲线是通过将真实的阳性率对于假阳性率绘制而成的,每个假性率本身都是根据数据估算的。我考虑和函数,用于从B对A类进行排序的决策阈值(随机森林中的树票,SVM中距超平面的距离,逻辑回归中的预测概率等)。改变决策阈值值将返回和不同估计值。此外,我们可以考虑˚F P - [R (θ )Ť P ř ˚F P - [R θ θ Ť P ř ˚F P ř Ť P - [R (θ )Ť PŤPR (θ )TPR(θ)TPR(\theta)FPR (θ )FPR(θ)FPR(\theta)ŤP[RTPRTPRFP[RFPRFPRθθ\thetaθθ\thetaŤP[RTPRTPRFP[RFPRFPRŤPR (θ )TPR(θ)TPR(\theta)在一系列的伯努利试验中估计成功的可能性。实际上,TPR定义为它也是成功且总试验中二项式成功概率的MLE 。TPTP+FN&gt;0ŤPŤP+ Fñ,TPTP+FN,\frac{TP}{TP+FN},ŤPTPTPŤP+ Fñ&gt; 0TP+FN&gt;0TP+FN>0 因此,通过将和的输出视为随机变量,我们面临着一个估计二项式实验成功概率的问题,在该二项式实验中,成功和失败的数目是确切已知的(给定通过,,和,我假设都是固定的)。按照惯例,仅使用MLE,并假设TPR和FPR对于特定值是固定的˚F P - [R (θ )Ť P …

1
自举与贝叶斯自举在概念上?
我在理解贝叶斯自举过程是什么以及与常规自举有何不同时遇到了麻烦。而且,如果有人可以提供直观/概念性的评论并进行比较,那将很棒。 让我们举个例子。 假设我们有一个[1,2,5,7,3]的数据集X。 如果我们多次采样替换来创建等于X大小的样本(所以[7,7,2,5,7],[3,5,2,2,7]等),那么我们计算每个的均值,是样本均值的自举分布吗? 贝叶斯引导分布是什么? 以及如何以相同方式完成其他参数(方差等)的贝叶斯自举分布?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.