我的参考文献建议为数据拟合分布考虑至少20个样本。
这有什么意义吗?
谢谢
我的参考文献建议为数据拟合分布考虑至少20个样本。
这有什么意义吗?
谢谢
Answers:
我以为样本数量的魔数是1,000。这就是大多数美国国家调查所产生的误差幅度,约为3%: 实际上,有效样本数要低超过1,000个,更喜欢700个左右,这是由于选择的可能性不平等以及无响应调整所致,导致了3.7%的误差范围。
仅用20个观测值,从技术上讲,您不会获得很高的偏度和峰度值(当然,要通过样本标准偏差归一化):
关于分布拟合的另一种观点可以通过核密度估计得出:对于大小为的样本,最流行的规则给出的带宽为 使用高斯核有效地覆盖了整个分布。换句话说,如果您对每个大小为20的样本进行内核密度估计,则大多数样本看起来都是正常的,除非它们明显具有明显的峰度(这将意味着有些偏僻的观察结果将以单独的颠簸形式出现在内核密度上)情节)。
不。不是遥远的。
像这样思考:如果您拥有一个十亿维的空间(人类),并且使用任何方法(20个人)抽取了20个样本,您能否利用所获得的信息来合理地理解地球上的每个人?不是遥远的。银河系中有1000亿颗恒星。通过随机选择20个,您可以了解所有的银河系天文学吗?没门。
在一维空间中,有些启发式方法(主要是有效的经验法则)可以提供帮助,它们描述了您要进行的测量次数。它们包括不同程度的效用和辩护,但在某种意义上说比“ 20”更具辩护性。它们包括“拟合方程中每个变量5次测量”,“至少35个高斯密度函数样本”和“至少300个二项式函数样本”。真正的统计学家,而不是像我这样的书呆子炸弹人,将能够在没有计算器的情况下将特定的置信区间和不确定性与第一性原理相关联。
如果您使用“拟合方程中每个参数进行5次测量”的规则,并且要根据高度分布拟合2维弯曲的双三次曲面的累积密度,则您的基础系统将是,是五阶多项式与三次方的比率。它将具有6 + 4 = 10个系数。如果尝试使用每个参数2个测量值或使用20个测量值来拟合10个参数值,则将违反此启发式方法。此试探法建议至少进行10 * 5 = 50次测量。
请记住,“最佳”是没有意义的想法,而没有“善意的衡量”。最佳途径是什么?如果您要灭顶之灾,也许是一个漫长而令人愉快的旅程。如果您要参加自己的加冕典礼,也许简短而宏伟。如果您正在沙漠中漫步,那可是阴凉的地方。“最佳”样本数量是多少?它是如此惊人地取决于您的问题,因此在此之前无法开始获得权威的答复。他们都?尽可能多吗?这些只是一点道理。是的,这就像部分死亡或怀孕。部分荒谬是一个非常不确定的问题的结果。
如果您想准确预测飞机上的气流?您可能需要进行数百万次测量才能进入球场。如果您想知道自己的身高,可以做一两个。
这并没有提出“跨越空间”和“在参数估计值差异最小的位置进行采样”的要点,但是该问题表明,更新生的答案是有意义的。这些事情需要在实施之前更多地了解问题的性质。
注意:根据建议进行了修改以改进。
也许是在进行t检验或ANOVAR的情况下-在基本统计应用中很常见-在每个组的样本量左右,以便对每个组的均值有很大的信心正态分布(根据中心极限定理),可以认为分布或多或少是单峰的且不是非常尖峰。二十而不是十九或二十一,因为它是一个整数。
在Russ Lenth的功效和样本量页面上,可以找到有关该主题的一些文章(在页面中间的“建议”部分)。
样本中的最小个体数量根据人口规模,维度数(如果您将数据划分为类别)和度量(如果对样本个体进行连续度量)的不同而大不相同。您的宇宙,您打算使用的分析技术(这是非常重要的一点-技术是在研究计划或实验设计期间定义的,永远不会以后),以及以前的研究表明的复杂性。
在“稀有疾病”和“实验心理学”(波普尔在他的工作中定义的心理)学科之外的任何严肃研究中,只有20个还不够。
在涉及稀有疾病分布和适应性分布的“罕见疾病”和“实验心理学”(波普尔在他的工作中定义的心理学)的主题之外,对于任何严肃的研究而言,20都是不够的。
不,您不应该为了使样本数量过多而使人中毒。常识和顺序测试命令您停止。