Questions tagged «sampling»

使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。

1
从自定义分布生成随机样本
我正在尝试使用R从自定义pdf生成随机样本。我的pdf是: fX(x)=32(1−x2),0≤x≤1fX(x)=32(1−x2),0≤x≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 我生成了统一的样本,然后尝试将其转换为我的自定义发行版。我通过找到分布的cdf(FX(x)FX(x)F_{X}(x))并将其设置为统一样本(uuu)并求解xxx。 FX(x)=Pr[X≤x]=∫x032(1−y2)dy=32(x−x33)FX(x)=Pr[X≤x]=∫0x32(1−y2)dy=32(x−x33) F_{X}(x) = \Pr[X \le x] = \int_{0}^{x} \frac{3}{2} (1-y^2) dy = \frac{3}{2} (x - \frac{x^3}{3}) 为了生成与上述分布的随机样本,得到均匀的样品和求解X在3u∈[0,1]u∈[0,1]u \in[0,1]xxx32(x−x33)=u32(x−x33)=u\frac{3}{2} (x - \frac{x^3}{3}) = u 我实现了它,R但没有得到预期的分布。谁能指出我的理解上的缺陷? nsamples <- 1000; x <- runif(nsamples); f <- function(x, u) { return(3/2*(x-x^3/3) - u); } …
16 r  sampling  uniform 

5
样本均值的抽样分布如何近似于总体均值?
我尝试学习统计信息是因为我发现它是如此普遍,以至于如果我对它的理解不正确,它就会禁止我学习一些东西。我很难理解样本均值的抽样分布这一概念。我不明白某些书籍和网站对它的解释方式。我想我有一个了解,但不确定它是否正确。以下是我试图理解它的尝试。 当我们谈论某种呈正态分布的现象时,通常(并非总是)涉及人口。 我们希望使用推论统计来预测有关某些人口的某些信息,但是并没有所有的数据。我们使用随机抽样,大小为n的每个样本被选择的可能性均等。 因此,我们抽取大量样本,假设为100,然后根据中心极限定理,这些样本的均值分布将近似为正态。样本均值的平均值将近似于总体均值。 现在我不明白的是,很多时候您会看到“一个100个人的样本……”我们是否需要10个或100个100个人的样本来近似均值人口?还是我们可以抽取一个足够大的样本(比如说1000),然后说均值将近似于总体均值?还是我们从1000人中抽取了1000个人,然后从100个人中随机抽取了100个人中的100个人,然后将其用作近似值? 是否采取足够大的样本来近似(几乎)均值始终有效?人口甚至需要正常工作才能正常工作吗?

2
有什么技术可以对两个相关的随机变量进行采样?
有什么技术可以对两个相关的随机变量进行采样: 如果其概率分布已参数化(例如,对数正态) 如果它们具有非参数分布。 数据是两个时间序列,可以为它们计算非零相关系数。假设历史相关性和时间序列CDF不变,我们希望将来模拟这些数据。 对于情况(2),一维类似物将用于构建CDF并从中采样。所以我想我可以构造一个二维CDF并做同样的事情。但是,我想知道是否有一种方法可以通过使用单个的一维CDF并以某种方式链接这些选项。 谢谢!

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
随机检验和置换检验之间的区别
在文献中,术语“随机化”和“置换”可互换使用。许多作者都说“置换(aka随机化)测试”,反之亦然。 充其量我相信差异是微妙的,这取决于他们对数据的假设以及可以得出的结论。我只需要检查我的理解是否正确,或者我是否缺少更深的区别。 排列检验假设数据是从基础总体分布(总体模型)中随机抽取的。这意味着从置换检验得出的结论通常适用于来自总体的其他数据[3]。 随机化检验(随机化模型)“使我们能够放弃典型心理学研究的令人难以置信的假设-从指定分布中随机抽样” [2]。但是,这意味着得出的结论仅适用于测试中使用的样品[3]。 当然,区别仅在于人口的定义。如果我们将人群定义为“所有患有疾病且适合治疗的患者”,则排列检验对该人群有效。但是,由于我们将人群限制在适合治疗的人群中,因此它实际上是一项随机检验。 参考文献: [1] Philip Good,置换检验:关于检验假设的重采样方法的实用指南。 [2] Eugene Edgington和Patric Onghena,随机检验。 [3] Michael Ernst,置换方法:精确推断的基础



2
我可以使用分布的矩采样分布吗?
我注意到在统计/机器学习方法中,分布通常由高斯近似,然后将高斯用于采样。它们通过计算分配的所述第一两个时刻开始,并使用这些估计μμ\mu和σ2σ2\sigma^2。然后他们可以从那个高斯样本中取样。 在我看来,我计算出的力矩越多,我越应该能够估计出我想要采样的分布。 如果我计算3个矩该怎么办...如何使用这些矩从分布中采样?这可以扩展到N个时刻吗?

2
从von Mises-Fisher发行版的Python中采样吗?
我正在寻找一种简单的方法来从Python中的多元von Mises-Fisher分布中采样。我在scipy和numpy模块中查看了stats模块,但只发现了单变量von Mises分布。有没有可用的代码?我还没找到。 显然,Wood(1994)根据该链接设计了一种从vMF分布进行采样的算法,但我找不到该论文。 -对于精度,我对在文献中很难找到的算法很感兴趣(大多数论文都集中在)。据我所知,开创性的文章(Wood,1994年)无法免费找到。小号2小号2S^2

2
关于Bootstrap重采样的最佳建议教科书?
我只是想问一问,您认为哪本书是最好的自助书。因此,我并不一定只指其开发人员编写的内容。 您能否指出哪本教科书最适合您,并能满足以下条件? 该技术的哲学/流行病学基础列出了适用范围,优点和缺点,对模型选择的重要性? 一组很好的简单示例,显示了实现的基本原理,最好是在Matlab中?


2
使用GPS路线管理错误(理论框架?)
我正在寻找合适的理论框架或专业知识,以帮助我理解如何处理GPS系统存在的错误-特别是在处理路线时。 从根本上讲,我正在寻找对数据的要求以及可以用来确定路径长度的任何算法。答案必须是值得信赖的。 我的一个朋友曾经是一场比赛的赛事总监,当时比赛被定为160公里,但Garmin看着每个人都将其变成了190公里以上。在终点线引起了相当多的悲伤,让我告诉你! 因此,我的朋友使用各种GPS设备返回该课程,以便对其进行重新映射,结果很有趣。 使用手持式Garmin Oregon 300,她的一条腿达到了33.7公里。对于Garmin Forerunner 310xt手表上的同一条腿,跑出38.3公里。 当我从俄勒冈州获得数据时,很明显它仅每90秒左右记录一次数据。先行者每隔几秒钟就会执行一次。 当我绘制来自俄勒冈州的数据时,我可以看到它被一些折弯弄糊涂了,并在它们之间划了一条直线,使曲线变少了一点。 但是,我认为记录频率的差异是造成这种情况的主要原因。即通过每隔几秒钟记录一次,先行者就更接近真实路线。但是,由于GPS的工作方式,会出现一些错误。如果记录的点随机散布在真实路线上(由于错误),则总距离将大于真实路线。(沿着直线的任意一侧的摆动线比直线长)。 因此,我的问题是:1.我可以在单个数据集上使用任何技术来有效地减少错误吗?2.关于录音频率差异的理论是否成立?3.如果我有多条相同路线的录音,是否有任何有效的技术将它们组合起来以更接近真实路线? 就像我说的,我真的不知道该寻找什么,以找到关于此的任何有用的科学。我正在寻找一种方法来确定一条给定路径的长度,这对人们来说非常重要。在比赛中多出30公里,比我们预期的多了5个小时以上。 根据要求,这里是一些示例数据: 详细的高频样本数据 低频样本数据 感谢您提供的任何建议。
14 error  sampling 

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

3
为什么/应该为政治(例如盖洛普)进行统计抽样?
与人口规模相比,在那里进行的民意测验(例如盖洛普)抽样的人数极少(例如,亿万人口中有千人)。 现在,对我而言,当您有充分理由相信样本可以代表人口(或类似地,代表其他样本)时,对人口进行抽样作为估算人口统计数据的一种方法就很有意义。 例如,采样显然对医学研究有意义,因为我们先验地知道人类都有非常相似的基因组,并且这个因素使他们的身体表现出相似的行为。 注意这不是某种松散的耦合-基因组是一个非常强大的决定性因素。 但是,我只是不明白使用低样本量进行政治民意测验的理由。 我可以买到在任何给定社区中大约80-90%的人都为总统投票(由于相似的社会经济/教育背景),但是这似乎不足以证明如此少的样本数是合理的。从字面上看,没有(至少对我而言)没有令人信服的理由,为什么有1000个随机选民的举止应该像其他2亿选民的举止一样。 对我来说,您至少需要(例如)该金额的100倍。为什么?我可以想到很多原因,例如: 仅加利福尼亚州就有约22,000个专用区。人们在经济和教育背景上成长的差异如此之大,以至于规模为1000的民意调查似乎很小。您如何平均用不到1个人来概括整个区域? 人们通常无法改变其身体对医学的反应,但是他们可以仅通过思考就改变对政治的看法。我的看法是,与政治打交道时,没有像医学中的DNA那样的强迫因素。在最好的我想像应该有相关的小口袋。 但是无论如何,这样的民意调查似乎仍然有效?或者至少人们似乎认为他们这样做? 但是为什么要这样呢?也许我只是根本不了解采样?有人可以解释吗? 我只是不能认真对待我所看到的任何民意调查,但我觉得我或多或少地独自一人。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.