Questions tagged «small-sample»

指由于缺乏数据而导致的统计复杂性或问题。如果您的问题是关于变量数量的小样本,请改用[underdetermined]标签。

3
引导程序:过度拟合的问题
假设一个人通过从原始n个观测值中替换得到每个大小为n的样本来执行所谓的非参数引导。我相信此过程等效于通过经验CDF估算累积分布函数:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function 然后通过从估计的cdf B次连续模拟观察值来获得引导程序样本。nnnBBB 如果我对此是正确的,则必须解决过度拟合的问题,因为经验CDF具有大约N个参数。当然,它渐近收敛于总体cdf,但是有限样本呢?例如,如果我告诉你,我有100个观测,我会估计CDF为N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2)有两个参数,你就不会惊慌。但是,如果参数数量增加到100,则似乎根本不合理。 同样地,当一个采用标准多元线性回归,误差项的分布被估计为。如果有人决定改用残差自举法,他必须意识到现在大约有nN(0,σ2)N(0,σ2)N(0, \sigma^2)nnn参数仅用于处理误差项分布。 您能否将我定向到一些明确解决此问题的消息源,或者告诉我如果您认为我做错了为什么这不是问题。

7
短时间序列值得建模吗?
这是一些背景。我有兴趣确定两个环境变量(温度,营养水平)如何影响11年内响应变量的平均值。每年,都有超过10万个位置的数据。 目的是确定在11年的时间段内,响应变量的平均值是否已响应环境变量的变化(例如,温度升高+更多养分将=更大响应)。 不幸的是,由于响应是平均值(不看平均值,只有规则的年际变化会淹没信号),因此回归将是11个数据点(每年1个平均值),并带有2个解释变量。在我看来,即使数据集非常小,线性正回归也很难被认为是有意义的(除非关系非常强,否则甚至不满足名义上的40点/变量)。 我做这个假设对吗?谁能提供我可能会缺少的其他想法/观点? PS:一些警告:没有等待更多年就无法获取更多数据。因此,可用数据是我们真正需要处理的。

4
绘制小样本
我有一个单独的14次小数据集来完成一项任务。但是,我很难找到合适的图形来绘制数据。如果样本较大,我将使用箱形图或直方图,但是如果样本如此小,我不确定在这种情况下是否适合使用。 更新:时间是5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2

1
霍尔顿序列与Sobol序列?
从在回答前一个问题,我是指向哈尔顿序列,用于创建一组涵盖了统一的样本空间相当均匀的载体。但是维基百科页面提到,特别是较高的素数在系列的早期通常是高度相关的。样本量相对较短的任何一对高质数似乎都是这种情况-即使变量没有相关性,样本空间也不是均匀采样的,而是整个空间中存在高样本密度的对角带。 因为我使用的是长度为6或更大的向量,所以不可避免地将不得不使用一些素数来解决这个问题(尽管不如上面的示例那样糟糕),并且某些变量对将在他们的样本飞机。在我看来,使用Sobol'序列生成相似的集合(仅通过查看图表)似乎可以在变量对之间生成样本,这些变量对的分布更加均匀,即使是相对少量的样本也是如此。这似乎有用得多,所以我想知道Halton序列何时会更有益?还是仅仅是Halton序列更容易计算? 注意:也欢迎讨论其他多维低差异序列。


1
方差分析:测试多组正常性的假设,每组样本很少
假定以下情况: 我们有大量(例如20个),小组规模较小(例如n = 3)。我注意到,如果我从均匀分布生成值,则即使误差分布均匀,残差也将看起来近似正态。以下R代码演示了此行为: n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) 如果我查看三个一组的样本的残差,则很明显会出现这种情况: [R1个= x1个− 平均值(x 1 ,x 2 ,x 3 )= x 1 − x1个+ x2+ x33= 23X1个− x2− …

1
检验vs检验?
我正试图弄清楚检验和检验之间的区别。Ťttžzz 据我所知,对于这两种测试,都使用相同的测试统计量,其形式如下 b^− CSEˆ(b^)b^-CSE^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} 其中是一些样本统计信息,是某个参考(位置)常量(取决于测试的详细信息),而是标准错误。b^b^\hat{b}CCCSEˆ(b^)SE^(b^)\widehat{\operatorname{se}}(\hat{b})b^b^\hat{b} 那么,这两类测试之间的唯一区别是,在检验的情况下,上面的检验统计量遵循(对于某些样本确定的自由度),而在检验,相同的检验统计量遵循标准正态分布。(这反过来表明,选择检验还是检验取决于样本是否足够大。)ŤŤtŤŤtdddžžzñ(0 ,1 )ñ(0,1个)\mathcal{N}(0, 1)žžzŤŤt 这个对吗?

2
小样本随机化可靠吗?
杰罗姆·康菲尔德(Jerome Cornfield)写道: 渔业革命的最好成果之一就是随机化的想法,而在其他几件事上达成共识的统计学家至少对此达成了共识。但是尽管达成了这一协议,并且尽管在临床和其他形式的实验中广泛使用了随机分配程序,但其逻辑状态(即其执行的确切功能)仍然不清楚。 杰罗姆·康菲尔德(1976)。“对临床试验的最新方法论贡献”。美国流行病学杂志104(4):408–421。 在整个站点以及各种文献中,我始终看到关于随机化能力的自信主张。诸如“它消除了混杂变量的问题”之类的强大术语很常见。例如,请参见此处。但是,出于实际/伦理的原因,很多时候都使用小样本(每组3-10个样本)进行实验。这在使用动物和细胞培养物进行临床前研究中非常普遍,研究人员通常报告p值以支持其结论。 这让我想知道,随机化在平衡混淆方面有多好。对于这个图,我模拟了一个比较治疗组和对照组的情况,其中一个混杂物可能以50/50的机会出现两个值(例如,type1 / type2,male / female)。它显示了用于研究各种小样本数量的“不平衡百分比”(处理样本与对照样本之间的type1#的差异除以样本数量)的分布。红线和右侧轴显示ecdf。 小样本量下,随机化下各种程度的平衡概率: 从这个情节可以清楚地看出两件事(除非我在某个地方搞砸了)。 1)随着样本数量的增加,获得完全平衡样本的可能性降低。 2)随着样本数量的增加,获得非常不平衡的样本的可能性降低。 3)在两组中n = 3的情况下,有3%的机会获得一组完全不平衡的组(对照组中的所有type1,治疗中的所有type2)。N = 3在分子生物学实验中很常见(例如,通过PCR测量mRNA或通过蛋白质印迹法测量蛋白质) 当我进一步检查n = 3的情况时,我观察到在这些条件下p值的奇怪行为。左侧显示类型2子组在不同均值条件下使用t检验计算的p值的总体分布。类型1的平均值为0,两组的sd = 1。右侧面板显示了从0.05到0.0001的名义“显着性临界值”的相应假阳性率。 通过t检验比较时,n = 3的p值在n = 3时具有两个子组和第二子组的平均值不同(10000个蒙特卡洛分析): 这是两组的n = 4的结果: 两个组的n = 5: 两组的n = 10: 从上面的图表可以看出,样本量和子组之间的差异之间似乎存在相互作用,这导致在原假设下不一致的各种p值分布。 因此,我们可以得出结论:对于小样本量的适当随机化和受控实验,p值不可靠吗? 第一图的R代码 require(gtools) #pdf("sim.pdf") par(mfrow=c(4,2)) for(n in c(3,4,5,6,7,8,9,10)){ #n<-3 p<-permutations(2, n, …

3
小n大p问题中基于树的集成方法的极限?
基于树的集成方法(例如,Random Forest和随后的导数(例如,条件森林))都声称可用于所谓的“ small n,large p ”问题,以识别相对变量的重要性。确实,情况确实如此,但是我的问题是,这种能力可以走多远?可以说30个观察值和100个变量吗?这种方法的突破点是什么,是否存在任何体面的经验法则?我希望并接受使用模拟或真实数据集的,以实际证据(而非推测)为链接的答案。我对后者没有太多了解(在这里和这里),因此非常欢迎您提出想法/建议/(关于主题)参考建议!

1
样本量很小的回归
我想使用4到5个解释变量进行回归,但是我只有15个观察值。无法假设这些变量是正态分布的,是否存在非参数或任何其他有效的回归方法?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.