Questions tagged «sample-size»

这个标签是非常模糊的。当问题与样本大小有关且以下任何一项都不更合适时,请使用它:[小样本],[大数据],[功效分析],[功效],[不确定]或[不平衡类别]。

14
大数据集不适合假设检验吗?
在《Amstat新闻》最近的一篇文章中,作者(Mark van der Laan和Sherri Rose)说:“我们知道,对于足够大的样本量,每项研究(包括无效假设为零的研究)都将声明具有统计学意义的效果。”。 好吧,我一个人都不知道。这是真的?这是否意味着假设检验对大数据集毫无价值?

3
进行逻辑回归时,不平衡样本是否重要?
好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。 我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。 但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?

7
最小回归的最小样本量的经验法则
在社会科学领域的一项研究计划中,有人问我以下问题: 在确定多元回归的最小样本量时,我总是走100 + m(其中m是预测变量的数量)。这样合适吗 我经常遇到很多类似的问题,通常有不同的经验法则。我也在各种教科书中读了很多这样的经验法则。有时我想知道规则在引用方面的普及是否基于该标准的设定低。但是,我也意识到良好启发式方法在简化决策过程中的价值。 问题: 在设计研究的应用研究人员的背景下,简单的经验法则对于最小样本量有什么用? 您是否会建议使用另一条经验法则来确定多元回归的最小样本量? 或者,您将建议采用哪些替代策略来确定多元回归的最小样本量?特别是,如果将值分配给非统计人员可以轻松应用任何策略的程度,那将是很好的。

10
t检验有效需要最小样本量吗?
我目前正在撰写一份半实验研究论文。由于所选区域内的人口较少,我的样本量只有15个,只有15个符合我的标准。15是用于t检验和F检验的最小样本量吗?如果是这样,我在哪里可以获得文章或书籍来支持这么小的样本量? 该论文上周一已被辩护,一个小组要求提供支持性参考,因为我的样本量太小。他说应该至少有40位受访者。

2
应该如何解释不同样本量的均值比较?
以网站上的书评为例。10,000人对A本书进行了评分,平均评分为4.25,方差。同样,书籍B由100个人进行评分,并且的评分为4.5 。σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 现在,由于图书A的样本量很大,“均值稳定”到4.25。现在,对于100个人来说,如果更多的人阅读B书,则平均评分可能会降至4或4.25。 一个人应该如何解释不同样本的均值比较?一个人可以/应该得出的最佳结论是什么? 例如-我们真的可以说Book B比Book A好吗?

5
从1个样本量中我们可以说总体平均值是什么?
我想知道关于人口平均值如果我只有一个测量值(样本大小为1),我们能说什么呢?显然,我们希望有更多的测量结果,但无法获得。μμ\muy1y1y_1 在我看来,由于样本均值等于,因此。但是,如果样本大小为1,则样本方差是不确定的,因此我们对使用作为的估计量的信心也是不确定的,对吗?有没有办法完全限制我们对的估计?y¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

10
为什么千分之六的说服力比十分之六的说服力更强?
请参阅Stella Cottrell撰写的“学习技巧手册”(帕拉格雷夫,2012年)第155页的摘录: 百分比给出百分比时请注意。 假设上面的语句改为: 60%的人更喜欢橘子;40%的人说他们更喜欢苹果。 这看起来很有说服力:给出了数量。但是60%和40%之间的差异显着吗?在这里,我们需要知道有多少人被问到。如果要问1000个人中谁喜欢600个橘子,这个数字很有说服力。但是,如果仅询问10个人,则60%的回答仅表示6个人更喜欢橙子。“ 60%”听起来令人信服,而“十分之六”则无法令人信服。作为重要的读者,您需要警惕用于使不足的数据令人印象深刻的百分比。 统计学中这种特征是什么?我想了解更多。


2
确定自举法/建议方法所需的样本量
我知道这是一个非常热门的话题,没有人能真正给出简单的答案。不过,我想知道以下方法是否有用。 引导方法仅在样本或多或少(准确读取)与原始总体相同的分布时才有用。为了确定是这种情况,您需要使样本大小足够大。但是什么足够大? 如果我的前提是正确的,那么在使用中心极限定理来确定总体均值时,您也会遇到相同的问题。只有当样本量足够大时,您才能确定样本均值的总体呈正态分布(在总体均值附近)。换句话说,您的样本需要足够好地代表您的人口(分布)。但是,又有什么足够大的呢? 以我的情况(管理过程:完成需求所需的时间与需求量)为例,我有一个多模式分布的人群(所有需求在2011年完成),其中99%的人相信它会更少我想要研究的数据通常要比人口分布(当前和过去一天之间完成的所有需求,理想情况下此时间跨度要尽可能小)更好。 我的2011年人口总数不足以制作样本,样本数量为n。我选择x的值 ,假设为10(x = 10)。现在,我通过反复试验来确定合适的样本量。我取n = 50,看看是否使用Kolmogorov-Smirnov正态分布样本。如果是这样,我重复相同的步骤,但样本大小为40,如果不重复,则样本大小为60(以此类推)。XXxññnXXx101010x = 10X=10x=10n = 50ñ=50n=50404040606060 一段时间后,我得出结论,是获得或多或少很好地表示我的2011年人口的绝对最小样本量。因为我知道我感兴趣的人群(在今天和过去一天之间完成的所有需求)的方差较小,所以我可以放心地使用n = 45的样本量进行引导。(间接地,n = 45决定了我的时间跨度:完成45个需求所需的时间。)n = 45ñ=45n=45n = 45ñ=45n=45n = 45ñ=45n=45454545 简而言之,这就是我的想法。但是由于我不是统计学家,而是一位工程师,他的统计学课程在随后的日子里发生,所以我不能排除我只是产生了很多垃圾的可能性。你们有什么感想?如果我的前提合理,我是否需要选择一个大于10或更小的?根据您的回答(我是否需要感到尴尬?:-),我将发布更多讨论想法。XXx101010 关于第一个答案的答复感谢您的答复,您的回答对我非常有用,尤其是书链接。 但是我很害怕在提供信息的过程中我完全掩盖了我的问题。我知道引导程序样本将接管总体样本的分布。我完全跟随你,但是... 您的原始人口样本需要足够大,以适度确定您的人口样本分布与人口的“实际”分布相对应(等于)。 这仅是关于如何确定原始样本大小需要多少的想法,以便合理确定样本分布与总体分布相对应。 假设您具有双峰人口分布,并且一个顶部比另一个顶部大很多。如果样本数量为5,则很有可能所有5个单位的值都非常接近大型顶部(随机抽取一个单位的机会最大)。在这种情况下,您的样本分布将看起来是单峰的。 样本数量为一百时,样本分布也是双峰的机会就更大了!!自举的麻烦在于您只有一个样本(并且您将在该样本的基础上进一步构建)。如果样本分布确实与总体分布不符,那么您就有麻烦了。这只是使“不良样本分布”机会尽可能低而又不必使样本大小无限变大的想法。


4
当主要目标是仅估计少量成分时,PCA或FA的最小样本量?
如果我有一个包含观察值和p个变量(维度)的数据集,并且通常n很小(n = 12 − 16),并且p的范围可能从很小(p = 4 − 10)到更大(p = 30 − 50)。nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 我记得曾听说过应该大于p才能进行主成分分析(PCA)或因子分析(FA),但似乎在我的数据中可能并非如此。请注意,出于我的目的,我对PC2之后的任何主要组件都不感兴趣。nnnppp 问题: 当可以使用PCA时,最小样本量的经验法则是什么? 即使或n &lt; p,也可以使用前几台PC 吗?n=pn=pn=pn&lt;pn&lt;pn<p 有什么参考吗? 您的主要目标是使用PC1还是可能使用PC2,这有关系吗: 简单地以图形方式,或 作为综合变量,然后用于回归分析?

7
随机影响因子的最小建议组数是多少?
我在R(lme4)中使用了混合模型来分析一些重复的度量数据。我有一个反应变量(粪便中的纤维含量)和3种固定作用(体重等)。我的研究只有6位参与者,每位参与者都有16次重复测量(尽管两个只有12次重复)。受试者是蜥蜴,它们在不同的“治疗”中被给予不同的食物组合。 我的问题是:我可以将主体ID用作随机效果吗? 我知道这是纵向混合效应模型中的通常做法,要考虑到受试者的随机采样性质以及以下事实:受试者内部的观察比受试者之间的观察更紧密相关。但是,将受试者ID视为随机效应涉及估计此变量的均值和方差。 由于我只有6个科目(该因子的6个水平),这是否足以准确表征均值和方差? 我对每个主题都进行了多次重复测量的事实在这方面是否有所帮助(我不认为这很重要)? 最后,如果我不能将主体ID用作随机效果,是否可以将其作为固定效果来控制我重复测量的事实? 编辑:我想澄清一下,当我说“我可以”使用主体ID作为随机效果时,我的意思是“这样做是个好主意”。我知道我可以只用2个级别的因子来拟合模型,但是肯定可以辩护吗?我问在什么时候考虑将对象视为随机效应变得明智?似乎文献建议5-6级是一个下限。在我看来,直到有15个以上的因子水平,对随机效应的均值和方差的估计才非常精确。

6
逻辑回归的样本量?
我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。 我对吗?如果没有,请让我知道如何确定自变量的数量?

3
健全性检查:p值可以走多低?
我正在使用ranksum检验来比较两个样本的中位数(),发现它们与显着不同。我应该对这么小的值感到怀疑还是应该将其归因于与非常大的样本相关的高统计能力?有任何可疑的低值之类的东西吗?n = 120000ñ=120000n=120000p = 1.12E-207pppppp

9
如何确定ping响应时间上该数据代表哪种分布?
我已经采样了一个真实的过程,即网络ping时间。“往返时间”以毫秒为单位。结果绘制在直方图中: Ping时间具有最小值,但尾巴较长。 我想知道这是什么统计分布,以及如何估算其参数。 即使该分布不是正态分布,我仍然可以显示我要实现的目标。 正态分布使用以下功能: 有两个参数 μ(平均值) σ 2 (方差) 参数估计 估算两个参数的公式为: 将这些公式应用于Excel中的数据,我得到: μ= 10.9558(平均值) σ 2 = 67.4578(方差) 使用这些参数,我可以在采样数据上方绘制“ 正态 ”分布: 显然,这不是正态分布。正态分布具有无限的顶部和底部尾部,并且是对称的。这种分布是不对称的。 我将采用什么原则?我将采用哪种流程图来确定这是哪种分布? 假设分布没有负尾巴,而有长正尾巴:什么分布与之匹配? 是否有与您所观察到的分布相匹配的参考? 紧追其后,此分布的公式是什么,以及估算其参数的公式是什么? 我想要获得分布,以便获得“平均”值以及“价差”: 我实际上是在软件中绘制直方图,我想覆盖理论分布: 注意:从math.stackexchange.com交叉发布 更新:160,000个样本 一个月又一个月,以及不计其数的抽样会议,都给出了相同的分布。有必须是一个数学表达式。 哈维建议将数据放在对数刻度上。这是对数刻度上的概率密度: 标签:抽样,统计,参数估计,正态分布 这不是答案,而是问题的附录。这是分配桶。我认为,喜欢冒险的人可能希望将其粘贴到Excel(或您知道的任何程序)中,并可以发现其分布。 值已标准化 Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.