假设我有一些数据集的最小值,平均值和最大值,例如10、20和25。是否有办法:
根据这些数据创建分布,并
了解人口的百分比可能高于或低于平均水平
编辑:
根据格伦的建议,假设我们的样本量为200。
假设我有一些数据集的最小值,平均值和最大值,例如10、20和25。是否有办法:
根据这些数据创建分布,并
了解人口的百分比可能高于或低于平均水平
编辑:
根据格伦的建议,假设我们的样本量为200。
Answers:
我有一些数据集的最小值,平均值和最大值,例如10、20和25。有没有办法:
根据这些数据创建分布,并
与这些样本数量一致的可能分布数是无限的。
了解人口的百分比可能高于或低于平均水平
在没有某些可能的不合理假设的情况下(通常不是这样),至少在很大程度上没有意义。结果将在很大程度上取决于您的假设(虽然某些特定的安排确实提供了一些有用的信息,但值本身没有太多信息-参见下文)。
提出比例问题答案可能非常不同的情况并不难。当存在与信息一致的可能答案时,您将如何知道自己处于哪种情况?
更多详细信息可能会提供有用的线索,但就目前情况而言(即使没有样本量,但如果平均值不是端点之间的一半,则可能至少为2或3),您不一定会在该问题上获得太多价值。您可以尝试限制范围,但是在许多情况下,它们不会使范围缩小很多。
*实际上,如果均值接近一个端点,则可以得出样本量的下限。例如,如果您的最小/平均/最大数不是10,20,25,而是10 24 25,则必须至少为15,这也表明大多数人口都在24以上。就是这样 但是,如果说分别为10、18、25,则很难获得关于样本量可能是多少的有用想法,更不用说低于平均值的比例了。
正如Glen_b所指出的,存在无限多种可能性。看一下以下图,它们显示了八个具有相同的最小,最大和均值的不同分布。
请注意,它们是 非常不同。第一个是均匀的,第四个是三角形分布的双峰混合,第七个是质量最大概率集中在中心附近,但最小和最大仍然是可能的,概率很小,第八个是离散的,在最小值和最大值处只有两个值,依此类推。
由于它们都符合您的条件,因此您可以将它们中的任何一个用于仿真。但是,您的主观选择会对模拟结果产生非常深刻的影响。我想说的是,如果最小,最大和均值确实是唯一的是您了解的分布,那么如果您希望它真的模仿真实的(未知的)分布,则您没有足够的信息来进行模拟。
因此,您需要问自己:您对分布情况了解多少?它是离散的还是连续的?对称或偏斜?单峰还是双峰?有很多事情要考虑。如果它是连续的,非均匀的和单峰的,并且您只知道最小值,最大值和均值,那么一个可能的选择是三角分布 -现实生活中几乎没有任何东西具有这种分布,但是至少您使用的是简单的东西并且不要对其形状施加太多假设。
统计文献中广泛引用了基于范围的规则来计算标准偏差(这里有一个参考文献... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm)。基本上是(max-min)/ 4。众所周知,这是一个非常粗略的估计。
给定信息并愿意采用正态分布的数据,可以从两个数(均值和基于范围的标准偏差)生成正态偏差。就是说,只要这两个信息都植根于第一或第二时刻,就可以从这两个信息中生成任何一个或两个参数的分布。
通过取SD /平均值之比,也可以产生粗糙的变化系数。这将为数据的无单位可变性提供代理。
误差更恰当地指总体的抽样分布,并且需要陈述样本量n进行估计。您的描述未提供此详细信息。