根据最小值,平均值和最大值计算分布


10

假设我有一些数据集的最小值,平均值和最大值,例如10、20和25。是否有办法:

  1. 根据这些数据创建分布,并

  2. 了解人口的百分比可能高于或低于平均水平

编辑:

根据格伦的建议,假设我们的样本量为200。


(1)很容易,因为有很多解决方案。(2)最好是在关于分布形状的一些假设的情况下完成的,否则,您可以获得的只是数学界限。
ub

3
到目前为止,您在字面上已被评论和答复所吸引,但必须注意(我想默认为@whuber的评论)是与这样的信息兼容的发行版太多,您不应推断出您拥有足够的信息完全或可靠地做到这一点。尤其是,如果您甚至不知道样本大小,那么即使考虑不确定性也无济于事。
尼克·考克斯

当您询问“高于或低于平均值”的总体比例时,您是在询问相对于样本平均值或总体平均值的比例吗?我们是在谈论连续变量还是离散变量?我们知道样本量吗?
Glen_b-恢复莫妮卡

Answers:


10

我有一些数据集的最小值,平均值和最大值,例如10、20和25。有没有办法:

根据这些数据创建分布,并

与这些样本数量一致的可能分布数是无限的。

了解人口的百分比可能高于或低于平均水平

在没有某些可能的不合理假设的情况下(通常不是这样),至少在很大程度上没有意义。结果将在很大程度上取决于您的假设(虽然某些特定的安排确实提供了一些有用的信息,但值本身没有太多信息-参见下文)。

提出比例问题答案可能非常不同的情况并不难。当存在与信息一致的可能答案时,您将如何知道自己处于哪种情况?

更多详细信息可能会提供有用的线索,但就目前情况而言(即使没有样本量,但如果平均值不是端点之间的一半,则可能至少为2或3),您不一定会在该问题上获得太多价值。您可以尝试限制范围,但是在许多情况下,它们不会使范围缩小很多。

*实际上,如果均值接近一个端点,则可以得出样本量的下限。例如,如果您的最小/平均/最大数不是10,20,25,而是10 24 25,则必须至少为15,这也表明大多数人口都在24以上。就是这样 但是,如果说分别为10、18、25,则很难获得关于样本量可能是多少的有用想法,更不用说低于平均值的比例了。ñ


2
@DJohnson我不认为这是双曲线的-从字面上讲是正确的(尽管几千次后我们实际列出它们的能力可能会失败,而数十次后我们继续关注它们的能力可能会失败,这并不意味着我们没有其他可以假设的假设)。在我的措词中,没有低调的意图-故意选择它来实际表明可能的假设集合的真实范围。您要我写什么?
Glen_b-恢复莫妮卡

3
1.将原因最多限制为两个参数的原因是什么?例如,如果数据是从三个参数对数正态绘制的,该怎么办?在许多情况下,我们无法从数据中估算出所有参数,但这是我试图在其中激发问题的一部分(与假设的讨论有关。2. Johnson和Kotz是人们命名的分布的子集/与之合作,对可能的假设没有
遥不可及的限制

4
ctd ...我很确定他们并不全部排除在这里。即使没有未指定的参数,也可能存在无限的cdfs,通过指定的信息不能排除它的非有限子集。
Glen_b-恢复莫妮卡

1
@Djohnson不管有什么分歧,我都很感谢您的宝贵意见。我将考虑是否至少要更清楚地表明我的意思(我的实际要求能够证明这一点,是否需要,但也许我至少可以清楚地说明这一点),以及是否在此处用不同的措词。
Glen_b-恢复莫妮卡

4
@DJohnson采取两个满足条件的分布:两者的任何混合仍将满足上述条件。从字面上看,这是无限的:一种不可枚举的。
猫王

8

正如Glen_b所指出的,存在无限多种可能性。看一下以下图,它们显示了八个具有相同的最小,最大和均值的不同分布。

八种不同的分布

请注意,它们是 非常不同。第一个是均匀的,第四个是三角形分布的双峰混合,第七个是质量最大概率集中在中心附近,但最小和最大仍然是可能的,概率很小,第八个是离散的,在最小值和最大值处只有两个值,依此类推。

由于它们都符合您的条件,因此您可以将它们中的任何一个用于仿真。但是,您的主观选择会对模拟结果产生非常深刻的影响。我想说的是,如果最小,最大和均值确实是唯一的是您了解的分布,那么如果您希望它真的模仿真实的(未知的)分布,则您没有足够的信息来进行模拟。

因此,您需要问自己您对分布情况了解多少?它是离散的还是连续的?对称或偏斜?单峰还是双峰?有很多事情要考虑。如果它是连续的,非均匀的和单峰的,并且您只知道最小值,最大值和均值,那么一个可能的选择是三角分布 -现实生活中几乎没有任何东西具有这种分布,但是至少您使用的是简单的东西并且不要对其形状施加太多假设。


因此,如果我确实假设为三角形分布,那么我也可以使用当前信息来计算模式。有帮助吗?
user132053 '16

1
@ user132053,您只需要最小,最大和均值。三角分布平均值的公式是(a + b + c)/ 3,您可以使用简单的算法对其进行求解。
蒂姆

4

统计文献中广泛引用了基于范围的规则来计算标准偏差(这里有一个参考文献... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm)。基本上是(max-min)/ 4。众所周知,这是一个非常粗略的估计。

给定信息并愿意采用正态分布的数据,可以从两个数(均值和基于范围的标准偏差)生成正态偏差。就是说,只要这两个信息都植根于第一或第二时刻,就可以从这两个信息中生成任何一个或两个参数的分布。

通过取SD /平均值之比,也可以产生粗糙的变化系数。这将为数据的无单位可变性提供代理。

误差更恰当地指总体的抽样分布,并且需要陈述样本量n进行估计。您的描述未提供此详细信息。


3
一些值得注意的事情:(1)均值可能会提供更多应覆盖(max-min)/ 4规则的信息。(2)由于给出了三条信息,因此仅使用两参数族通常会降低灵活性。
ub

@whuber您已经在此线程上发表了两个典故的评论。如果您要详细说明它们并指定答复,那将是很好的选择。
Mike Hunter
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.