Questions tagged «small-sample»

指由于缺乏数据而导致的统计复杂性或问题。如果您的问题是关于变量数量的小样本,请改用[underdetermined]标签。

7
如何在t检验或非参数检验之间进行选择,例如小样本中的Wilcoxon
某些假设可以通过学生t检验(可能在两样本案例中使用Welch的不等方差校正)进行检验,也可以通过非参数检验(例如Wilcoxon配对符号秩检验,Wilcoxon-Mann-Whitney U检验,或配对符号测试。我们如何就最适合的测试做出有原则的决定,尤其是在样本量很小的情况下? 许多介绍性教科书和讲义提供了一种“流程图”方法,在此方法中检查正态性(不建议(通过正态性检验,或更广泛地通过QQ图或类似方法))以在t检验或非参数检验之间做出决定。对于不成对的两样本t检验,可以进一步检查方差的均匀性,以决定是否应用韦尔奇校正。这种方法的一个问题是,决定采用哪种测试的方式取决于所观察的数据,以及这如何影响所选测试的性能(功率,I类错误率)。 另一个问题是很难检查小数据集中的正态性:正式测试的能力很低,因此很可能无法检测到违规,但是类似的问题也适用于将数据放在QQ图上。即使是严重的违规行为也可能无法发现,例如,如果分布是混合的,但没有从混合物的一种成分中获得观察结果。与大不同,我们不能依靠中心极限定理的安全网以及检验统计量和t分布的渐近正态性。ñnn 对此的一个原则响应是“安全第一”:无法可靠地验证小样本中的正态性假设,请坚持使用非参数方法。另一个是考虑任何假设正常的理由,从理论上(例如变量是几个随机分量的总和,应用CLT)或凭经验(例如以前的研究,值较大表明变量是正常的),并且仅在存在此类理由的情况下使用t检验。但这通常只能证明近似正态性是正确的,在自由度较低的情况下,很难判断避免使t检验无效所需接近正态性。ñnn 选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。但是少量样本也会引发一些附带问题: 如果执行“无关样本”或“非配对” t检验,是否要使用Welch校正?有些人使用假设检验来检验方差是否相等,但是这里的功效较低。其他人则根据各种标准检查SD是否“合理地”关闭。除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全? 如果您将方法的选择视为权能与鲁棒性之间的折衷,那么关于非参数方法的渐近效率的主张将无济于事。根据经验,有时会听到“ 如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,则通常功能要强大得多,因此只使用Wilcoxon”,但是如果95%仅适用于大,则对于较小的样本,这是有缺陷的推理。ñnn 小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据进行t检验是否安全?对于较大的样本,这将非常诱人,但是如果很小,除非可能有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。ñnn 如何检查非参数的假设? 一些消息来源建议在应用Wilcoxon检验(将其作为位置而不是随机优势的检验)之前,先验证对称分布,这在检查正态性方面会带来类似的问题。如果我们首先使用非参数测试的原因是对“安全第一”的口号的盲从,那么从少量样本评估偏斜度的困难显然会导致我们降低配对符号测试的功效。 考虑到这些小样本问题,在确定t测试与非参数测试之间是否有一个良好的过程(希望可以引用)? 有几个很好的答案,但是也欢迎考虑使用其他替代等级测试的答案,例如置换测试。

4
可以将引导程序视为小样本量的“治愈方法”吗?
这个问题是由我在这本研究生水平的统计课本中读到的东西触发的,并且在统计研讨会上的这次演讲中也(独立地)听到了。在这两种情况下,该语句都遵循“由于样本量很小,我们决定通过自举而不是(或与之一起)使用此参数方法进行估计”。XXX 他们没有进入细节,但可能的理由如下:方法假定数据按照一定的参数分布。实际上,分布不完全是,但是只要样本大小足够大就可以。由于在这种情况下样本量太小,让我们切换到不做任何分布假设的(非参数)引导程序。问题解决了!XXXDDDDDD 在我看来,这不是引导程序的用途。我是这样看的:当或多或少明显有足够的数据时,bootstrap可以给自己一个优势,但是没有封闭形式的解决方案可以获取标准误差,p值和类似的统计信息。一个经典的例子是从双变量正态分布中给定样本来获得相关系数的CI:存在闭式解,但是它是如此复杂,以至于自举更简单。但是,这并不意味着引导程序可以以某种方式帮助人们摆脱小样本的困扰。 我的看法正确吗? 如果您觉得这个问题很有趣,那么我还有另一个更具体的引导问题: 引导程序:过度拟合的问题 PS:我不禁分享一个“引导方法”的令人震惊的例子。我没有透露作者的名字,但他是老一辈的“ Quants”之一,他于2004年写了一本关于量化金融的书。 考虑以下问题:假设您有4个资产,每个资产有120个每月回报观察。目标是构建年度收益的联合4维cdf。即使对于单个资产,仅通过10年的观测也很难实现该任务,更不用说对4维cdf的估计了。但请放心,“引导程序”将为您提供帮助:获取所有可用的4维观测值,用替换对12个样本进行重新采样,然后将它们组合起来,以构建单个“引导”的4维年度回报矢量。重复执行1000次,然后发现,您获得了1000个年度回报的“引导样本”。将其用作大小为1000的iid样本,以进行cdf估计或从一千年的历史中得出的任何其他推论。

5
从1个样本量中我们可以说总体平均值是什么?
我想知道关于人口平均值如果我只有一个测量值(样本大小为1),我们能说什么呢?显然,我们希望有更多的测量结果,但无法获得。μμ\muy1y1y_1 在我看来,由于样本均值等于,因此。但是,如果样本大小为1,则样本方差是不确定的,因此我们对使用作为的估计量的信心也是不确定的,对吗?有没有办法完全限制我们对的估计?y¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

5
R中的警告-卡方近似值可能不正确
我有显示消防员入学考试结果的数据。我正在检验考试结果和种族不是相互独立的假设。为了对此进行测试,我在R中运行了Pearson卡方检验。结果显示了预期的结果,但警告“” In chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) …

6
短时间序列的最佳方法
我有一个与短时间序列建模有关的问题。建模是否不是问题,而是如何建模。你会推荐建模(非常)短的时间序列(说长的什么方法)?“最好”是指最可靠的一种,即由于观察次数有限,因此最不容易出错。对于短序列,单个观测值可能会影响预测,因此该方法应提供谨慎的误差估计以及与预测相关的可能变异性。我通常对单变量时间序列感兴趣,但是了解其他方法也将很有趣。Ť≤ 20T≤20T \leq 20

4
如何进行仅包含样本数量,样本平均值和总体平均值的学生t检验?
学生的检验要求样本标准偏差。但是,我怎么计算的当只有样本量和样本平均已知?tttssssss 例如,如果样本大小为,样本平均值为,那么我将尝试创建相同样本的列表,每个样本的值均为。预期样本标准偏差为。这将在检验中产生零除问题。494949112112112494949112112112000ttt 其他数据: ACME北部工厂工人的平均收入为$200$200\$200。据报道,在ACME南部工厂随机抽取494949名工人,他们的年收入$112$112\$112。这种差异具有统计意义吗? 我是否正确地说人口平均数为$200$200\$200?

2
在小样本研究中如何应对探索性数据分析和数据挖掘?
探索性数据分析(EDA)通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据的研究中,我会遇到这种情况(社会人口统计学数据,神经心理学或医学量表,例如,心理或身体机能,抑郁/焦虑水平,症状清单) )。EDA可能会突出显示一些意料之外的关系(“意料之外”,意味着它们未包含在初始分析计划中),这会转化为其他问题/假设。 与过拟合的情况一样,数据挖掘或监听确实会导致结果无法推广。但是,当有大量数据可用时,(对于研究人员或医师而言)很难假设一组有限的假设。 我想知道在小样本研究中是否有公认的方法,建议或经验法则可能有助于描述EDA。

2
主题模型中的主题稳定性
我正在一个项目中,我要提取有关一系列开放式论文内容的信息。在这个特定的项目中,作为大型实验的一部分,有148人撰写了有关假设的学生组织的文章。尽管在我的领域(社会心理学),分析这些数据的典型方法是手工编写论文,但我想定量地进行此操作,因为手工编码既费工又过于主观味道。 在对定量分析免费响应数据的方法进行调查期间,我偶然发现了一种称为主题建模(或潜在Dirichlet分配或LDA)的方法。主题建模采用数据的单词袋表示(术语文档矩阵),并使用有关单词共现的信息来提取数据的潜在主题。这种方法对我的应用程序似乎很完美。 不幸的是,当我将主题建模应用于数据时,我发现了两个问题: 主题建模发现的主题有时很难解释 当我使用其他随机种子重新运行主题模型时,主题似乎发生了巨大变化 我特别关心第2期。因此,我有两个相关的问题: 在LDA程序中,我可以做些什么来优化我的模型拟合程序的可解释性和稳定性?就我个人而言,我不太关心寻找具有最低困惑度和/或最佳模型拟合度的模型-我主要是想使用此过程来帮助我理解和表征本研究参与者在论文中写的内容。但是,我当然不希望我的结果成为随机种子的假象! 与上述问题相关,LDA是否需要多少数据的标准?我见过的大多数使用这种方法的论文都分析了大型语料库(例如,过去20年中所有科学论文的档案),但是,由于我使用的是实验数据,因此我的文档语料库要小得多。 我在这里张贴了论文数据,以供任何想弄脏他或她的手的人使用,并且我在下面粘贴了我正在使用的R代码。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the LIWC function …



4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
使用H0下的引导程序来测试两种方法之间的差异:在组内还是在合并样本中进行替换
假设我有一个包含两个独立组的数据: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …


8
未配对t检验的最小样本量
是否有“规则”来确定t检验有效所需的最小样本量? 例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。 可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?

2
交叉验证中的均值(分数)vs分数(串联)
TLDR: 我的数据集很小(120个)样本。在进行10倍交叉验证时,我应该: 收集每个测试折叠的输出,将它们连接成一个向量,然后在这个完整的预测向量(120个样本)上计算误差? 或者我应该代替计算上的输出我得到的错误的一个折(每个折痕12个样本),然后让我最终误差估计为平均10点的误差估计? 是否有任何科学论文争论这些技术之间的差异? 背景:多标签分类中与宏观/微观得分的潜在关系: 我认为这个问题可能与micro和Macro之间的差异有关经常在多标签分类任务(例如说5个标签)中使用的平均值平均值。 在多标签设置时,微平均得分是通过使计算的聚集对120个样本的所有5个分类器预测真阳性,假阳性,真阴性,假阴性权变表,。然后,该列联表用于计算微观精度,微观召回率和微观f测度。因此,当我们有120个样本和5个分类器时,将根据600个预测(120个样本* 5个标签)计算出微观指标。 使用Macro变体时,每个标签独立计算度量(精度,召回率等),最后将这些度量平均。 微观估算与宏观估算之间的差异背后的思想可能会扩展到二进制分类问题中以K倍设置可以完成的工作。对于10倍,我们可以对10个值进行平均(宏观测量),也可以将10个实验连接起来并计算微观措施。 背景-扩展示例: 以下示例说明了该问题。假设我们有12个测试样本,并且有10折: 折1:TP = 4,FP = 0,TN = 8 精度 = 1.0 折2:TP = 4,FP = 0,TN = 8 精度 = 1.0 折3:TP = 4,FP = 0,TN = 8 精度 = 1.0 折4:TP = 0,FP = 12, 精度 = …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.