Questions tagged «sampling»

使用概率方法从明确指定的总体中创建样本和/或根据指定的分布生成随机数。由于此标签含糊不清,因此请考虑对前者使用[调查抽样],对后者考虑[蒙特卡洛]或[模拟]。对于从已知分布中创建随机样本的问题,请考虑使用[random-generation]标签。

3
在R中对大数据进行聚类并且与采样相关吗?
我是数据科学的新手,在查找R中具有200,000行和50列的数据集中的聚类时遇到问题。 由于数据同时具有数字变量和名义变量,因此使用Euclidean距离度量的K-means之类的方法似乎不是合适的选择。因此,我转向接受距离矩阵作为输入的PAM,agnes和hclust。 菊花方法可以处理混合类型的数据,但距离矩阵太大:200,000乘以200,000,比2 ^ 31-1(R 3.0.0之前的向量长度限制)大得多。 昨天发布的新R 3.0.0支持长度大于2 ^ 31-1的长向量。但是200,000 x 200,000的双矩阵需要大于16Gb的连续RAM,这在我的机器上是不可能的。 我读过有关并行计算和bigmemory包的信息,但不确定它们是否对您有帮助:如果我使用的是雏菊,它将生成一个大矩阵,该矩阵无论如何都无法容纳在内存中。 我还阅读了有关采样的文章: 采样与“大数据”时代相关吗? 因此,就我而言,对数据集使用抽样,对样本进行聚类然后推断整个数据集的结构是否相关? 你能给我一些建议吗?谢谢! 关于我的机器: R版本3.0.0(2013-04-03) 平台:x86_64-w64-mingw32 / x64(64位) 操作系统:Windows 7 64bit 内存:16.0GB

3
通过重复观察的数量来估计被抽样人群的数量
假设我有五千万个独特的事物,我采样了1000万个样本(有替换样本)...我附上的第一张图显示了我对相同的“事物”进行了多少次采样,这与人口大于我的样本。 但是,如果我的人口只有1000万,而我又进行了1000万采样,则如第二幅图所示,我将更频繁地对同一事物进行采样。 我的问题是-从我的观察频率表(条形图中的数据)中,当未知时,是否有可能获得原始人口规模的估计?如果您可以提供如何在R中进行此操作的指针,那就太好了。

1
霍尔顿序列与Sobol序列?
从在回答前一个问题,我是指向哈尔顿序列,用于创建一组涵盖了统一的样本空间相当均匀的载体。但是维基百科页面提到,特别是较高的素数在系列的早期通常是高度相关的。样本量相对较短的任何一对高质数似乎都是这种情况-即使变量没有相关性,样本空间也不是均匀采样的,而是整个空间中存在高样本密度的对角带。 因为我使用的是长度为6或更大的向量,所以不可避免地将不得不使用一些素数来解决这个问题(尽管不如上面的示例那样糟糕),并且某些变量对将在他们的样本飞机。在我看来,使用Sobol'序列生成相似的集合(仅通过查看图表)似乎可以在变量对之间生成样本,这些变量对的分布更加均匀,即使是相对少量的样本也是如此。这似乎有用得多,所以我想知道Halton序列何时会更有益?还是仅仅是Halton序列更容易计算? 注意:也欢迎讨论其他多维低差异序列。


3
为什么几个(如果不是全部)参数假设检验假设为随机抽样?
像Z,t和其他几种测试都假定数据基于随机采样。为什么? 假设我正在做实验研究,我在乎内部有效性而不是外部有效性。因此,如果我的样本可能有点偏见,那很好,因为我已经接受了不推断整个人群的假设的结论。并且分组仍将是随机的,即,为了方便起见,我将选择样本参与者,但我将它们随机分配给不同的组。 为什么我不能忽略这个假设?

2
如果随机变量的值范围是有界的,我们如何获得正态分布为?
假设我们有一个随机变量,其值的范围由和界定,其中是最小值,是最大值。b a baaabbbaaabbb 有人告诉我,,其中是我们的样本大小,我们样本均值的抽样分布是正态分布。也就是说,当我们增加我们越来越接近正态分布,但实际极限是相等的正态分布。ñ ñ ñ →交通∞n→∞n→∞n \to \inftynnnnnnn→∞n→∞n \to \infty 但是,它不是必须从扩展到的正态分布的定义的一部分吗?∞−∞−∞- \infty∞∞\infty 如果我们范围的最大值为,则最大样本均值(与样本大小无关)将等于,最小样本均值将等于。b 一bbbbbbaaa 因此在我看来,即使当接近无穷大时采用极限,我们的分布也不是实际的正态分布,因为它受和。一个bnnnaaabbb 我想念什么?

3
确定繁重的分布式过程是否已显着改善
我观察更改前后的流程处理时间,以了解流程是否因更改而有所改善。如果减少了处理时间,则过程得到了改善。处理时间的分布非常复杂,因此基于平均值进行比较是不明智的。相反,我想知道更改后观察到较短处理时间的可能性是否明显高于50%。 令为更改后处理时间的随机变量,而为更改前的处理时间。如果P(X &lt;Y)显着高于0.5,那么我想说这个过程已经改善了。ÿXXXÿYY0.5P(X&lt; Y)P(X&lt;Y)P(X < Y)0.50.50.5 现在我有ñnn观察X一世xix_i的XXX和米mm观测ÿĴyjy_j的ÿYY。P(X &lt;Y)的观测概率为\ hat p = \ frac {1} {nm} \ sum_i \ sum_j 1_ {x_i &lt;y_j}。P(X&lt;Y)P(X&lt;Y)P(X < Y)p^=1nm∑i∑j1xi&lt;yjp^=1nm∑i∑j1xi&lt;yj\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j} 给定观测值x_i和y_j,我能怎么说P(X &lt;Y)?P(X&lt;Y)P(X&lt;Y)P(X < Y)xixix_iyjyjy_j

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: &gt; require(nlme) &gt; options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) &gt; m2&lt;-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
如果exp(X)〜Gamma如何快速采样X?
我有一个简单的采样问题,我的内循环看起来像: v = sample_gamma(k, a) 其中sample_gamma从Gamma分布样品以形成样品狄利克雷。 它运行良好,但对于某些k / a值,一些下游计算会出现下溢。 我将其修改为使用日志空间变量: v = log(sample_gamma(k, a)) 在修改了该程序的所有其余部分之后,它可以正常工作(至少在测试案例中它给我的结果是相同的)。但是,它比以前慢。 有没有一种方法可以直接对进行采样而无需使用这样的慢函数?我为此进行了谷歌搜索,但是我什至不知道此发行版是否具有通用名称(log-gamma?)。对数()X,exp(X)〜伽玛X,exp⁡(X)∼GammaX, \exp(X) \sim \text{Gamma}日志()log⁡()\log()

1
为什么中心极限定理对单个样本有效?
我一直被教导,当您重复采样并且每个采样足够大时,CLT就会起作用。例如,假设我有一个拥有100万公民的国家。我对CLT的理解是,即使他们的身高分布不正常,如果我对50个人进行了1000次抽样(即,对50位市民进行了1000次调查),然后计算了每个样本的平均身高,这些样本的分布意味着正常。 但是,我从未见过现实世界中研究人员重复取样的情况。相反,他们采取了一个大样本(即,调查了50,000名公民的身高)并以此作为工作依据。 为什么统计书教导重复采样,而在现实世界中研究人员只能进行一次采样? 编辑:我正在考虑的现实案例是对50,000个Twitter用户的数据集进行统计。该数据集显然不是重复样本,仅是50,000个样本中的一个。

2
MCMC方法-燃烧样品?
在MCMC方法中,我一直在阅读有关burn-in时间或的样本数的信息"burn"。这到底是什么?为什么需要它? 更新: 一旦MCMC稳定下来,它会保持稳定吗?burn-in时间的概念与混合时间的概念有何关系?
12 sampling  mcmc 

1
重要抽样的直观示例
我的背景是计算机科学。我对蒙特卡洛采样方法还很陌生,尽管我了解数学原理,但我很难拿出直观的示例进行重要性采样。更准确地说,有人可以提供以下示例: 一个原始分布,一个人不能从中抽样,但一个人可以估算 重要度分布,可以从原始分布中进行抽样并得到足够的信息。

4
为什么在实际应用中根本不考虑采样而不更换采样?
如我所见,带替换的采样比不带替换的采样有两个优点: 1)您不必担心有限的人口校正。 2)有机会多次绘制总体中的元素-然后您可以循环使用测量并节省时间。 当然,从学术观点出发,必须研究这两种方法。但是从实际的POV来看,鉴于替换的优势,我不明白为什么不考虑不替换就进行采样。 但是我是统计学的初学者,因此可能有很多充分的理由说明为什么不进行替换可能是更好的选择-至少对于特定用例而言。拜托,让我困惑!

3
如何在R中重新采样而不重复排列?
在R中,如果我先set.seed(),然后使用样本函数将列表随机化,是否可以保证不会生成相同的排列? 即... set.seed(25) limit &lt;- 3 myindex &lt;- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations &lt;- sample(myindex) print(permutations) } 这产生 [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

1
使用条件分布从边际分布采样?
我想从单变量密度采样,但我只知道这种关系:FXfXf_X FX(x )= ∫FX| ÿ(x | y)fÿ(y)dÿ。fX(x)=∫fX|Y(x|y)fY(y)dy.f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. 我想避免使用MCMC(直接在整数表示上),并且由于和易于采样,因此我在考虑使用以下采样器:f Y(y )FX| ÿ(x | y)fX|Y(x|y)f_{X\vert Y}(x\vert y)Fÿ(y)Fÿ(ÿ)f_Y(y) 对于。j = 1 ,… ,NĴ=1个,…,ñj=1,\dots, N 样本。ÿĴ〜˚FÿÿĴ〜Fÿy_j \sim f_Y 样本。XĴ〜˚FX| ÿ(⋅ | yĴ)XĴ〜FX|ÿ(⋅|ÿĴ)x_j \sim f_{X\vert Y}(\cdot\vert y_j) 然后,我将得到对,仅获取边际样本。 它是否正确?(x 1,… ,x N)(x1个,ÿ1个),。。。,(xñ,ÿñ)(X1个,ÿ1个),。。。,(Xñ,ÿñ)(x_1,y_1),...,(x_N,y_N)(x1个,… ,xñ)(X1个,…,Xñ)(x_1,\dots,x_N)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.