根据理论,拟合或其他方式选择分布更好吗?


12

这是一个哲学问题,但是我对其他有更多经验的人如何考虑分配选择感兴趣。在某些情况下,似乎很显然,理论可能最有效(小鼠尾巴的长度可能呈正态分布)。在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。我可以想象使用其中的一个或另一个会遇到一些陷阱,然后当然存在一个问题,就是如果您真的不知道,也许应该只使用经验分布。

所以我想我真正要问的是:有人是否有一致的方式来处理/思考这个问题?您是否有任何资源可以建议对此进行良好处理?


4
它从根本上取决于一个人为什么适合或假设一个分布,以及它打算代表什么。我们在此站点上提出了许多问题,似乎人们觉得他们必须解决数据或派生数量的分布问题(例如回归残差),而实际上该练习对于解决他们真正认为的统计问题毫无意义(或更糟,具有欺骗性)有关注。您能否澄清一下您想到的情况?
ub

1
您好,Whuber,谢谢您的评论。由于我已经开始了一些概率风险评估工作,因此我需要将我的所有数据拟合到分布中,这使我好奇地希望对如何进行分布选择有一个更一致的看法。因此,我想澄清一下,我只对您应该使用发行版的时间以及如何正确进行分配非常感兴趣。就像我说的那样,从理论上讲有些情况比较容易,而另一些时候我使用经验分布是因为这似乎是最好的,但是我的决策比我想要的更加随意。
HFBrowning

1
这是一种有趣的蠕虫病毒,因为您实际上在做(某种程度上是抽象的)正在尝试通过计算传播采样不确定性。从如此高的层次看待此过程的原因是它揭示了一个经常犯的基本错误:通过用分布替换数据,人们无法在估计的分布参数中包含不确定性。一些从业者将此解释为“二阶” PRA。我想建议您缩小问题范围,将重点放在这些问题上,而不是一般地询问分布拟合。
ub

1
我用于PRA的程序包是二阶monte carlo(R中的mc2d程序包),因此我将分配分配为“不确定性”,“可变性”或两者。因此,希望我能尽我所能解决这个问题。但是,我对这个问题的初衷是要获得更高的了解,我提出了风险评估,只是为了说明我感兴趣的原因。也许没有比“有时您这样做,有时您那样做”更好的方法了,但是我希望有人提出建议:)特别是因为我无法轻易确定何时可能会更好
HFBrowning 2014年

3
这绝对是您张贴文章的合适地点。您是说在编辑时遇到问题吗?顺便说一句,我很好奇您的程序如何量化使用经验分布的不确定性。即使您没有明确估计任何参数,它也带有采样变异性(在尾部可能很深,通常在风险评估中最重要)。
ub

Answers:


6

绝对取决于所讨论的数据是什么,以及人们对这些数据了解或希望承担的数量。正如@whuber在最近的聊天中所说: “涉及物理定律,您几乎总是可以对适当的数据建模方法做出合理的猜测。” (我怀疑这对他而言比对我而言更真实!而且,我希望这不会因其原始上下文而被误用...)在更像社会科学中潜在构造建模的情况下,专注于通常会很有用经验分布作为理解鲜为人知现象细微差别的一种方式。假定正态分布并忽略整体形状中的失配是微不足道的,这太容易了,并且将离群值视为错误而没有合理的理由而将其排除在外是很可能的。

当然,这种行为的很大一部分是由人们想要应用的分析假设所激发的。通常,最有趣的问题远远超出了变量分布的描述或分类。这也会影响给定场景的正确答案;由于方法和其他方法也不理想,因此当它不太适合(也不太适合)时,可能有理由(例如,需求)采用正态分布。然而,习惯性地这样做的风险是忘记问一个有趣的问题,一个人可以问一个变量的分布。

例如,考虑财富与幸福之间的关系:人们通常想问的一个普遍的问题。假设财富遵循伽马(Salem&Mount,1974)或广义贝塔(Parker,1999)分布可能是安全的,但是假设幸福是正态分布真的安全吗?确实,根本没有必要仅仅为了回答最初的问题就假设这一点,但是人们有时会这样做,然后忽略诸如响应偏差和文化差异之类的潜在重要问题。例如,某些文化倾向于给出或多或少的极端反应(请参阅@chl的关于由李克特项目组成的问卷的因素分析的答案),并且规范在正面和负面情绪的公开表达方面有所不同Tucker,Ozer,Lyubomirsky和Boehm,2006年。这可能会增加经验分布特征(如偏度和峰度)差异的重要性。如果我在俄罗斯,中国和美国比较财富与幸福的主观评价之间的关系,我可能想评估幸福评价的主要趋势之间的差异。这样做时,我会出于单向方差分析的考虑而假设每个区域的正态分布(即使对于违规行为可能相当健壮)),由于各种文化相关的规范和回应偏见,有理由期望中国的“散尾”分布,俄罗斯的正偏分布和美国的负偏分布。为了进行显着性检验(即使我可能更愿意诚实地报告效果大小),我宁愿使用非参数方法,并且为了真正理解每个人群的主观幸福感,我希望而不是凭经验描述分布,而不是尝试将其归类为一些简单的理论分布,并忽略或掩盖任何不当之处。这是对IMO信息的浪费。

参考
-Parker,SC(1999)。广义beta是收入分配的模型。经济学快报,62(2),197–200。
-塞勒姆(ABZ)和芒特(TD)(1974)。收入分配的便捷描述模型:伽玛密度。计量经济学,42(6),1115–1127。
-Tucker,KL,Ozer,DJ,Lyubomirsky,S.,&Boehm,JK(2006)。测试对生活尺度满意度的测量不变性:俄罗斯人和北美人的比较。社会指标研究,78(2),341–360。取自http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf


谢谢您的回答,尼克。我发现该示例特别有用。
HFBrowning 2014年

3

老鼠的尾巴长度可能呈正态分布

我会怀疑的。正态分布来自许多独立的加性效应。生物系统由许多相互作用的反馈回路(相互依赖的乘法效应)组成。此外,通常有些州比其他州更稳定(即吸引者)。因此,某种长尾或多峰分布可能会描述尾长。实际上,正态分布可能是描述任何生物的非常差的默认选择,并且滥用是造成该文献报道的许多“异常值”的原因。自然界中这种分布的普遍性是一个神话,而不仅仅是“完美的圈子并不真正存在”的意义。但是,并不能说明均值和sd不能用作汇总统计信息。

尤其是因为我无法轻易确定何时最好“信任数据”(比如我拥有的这个时髦的右偏数据集,但是n = 160,这给定的数据似乎还不够),并且需要经验,或者像我的同事一样坚持将其安装到Beta版中。我怀疑他之所以选择它,仅是因为它的边界是[0,1]。这似乎只是临时的。希望这可以澄清我的意图!

拟合经验分布为基础过程提供了提示,这有助于理论分布的发展。然后将理论分布与经验分布进行比较,以检验该理论的证据。

如果您的目的是根据现有证据评估某些结果的可能性,而您没有理由选择该特定分布,我想我不认为做出额外的假设会有所帮助。相反,它似乎使事情变得混乱。

但是,如果您试图描述或汇总数据,则适合于分布。


1
即使我只能接受一个答案,也要感谢您指出正态分布实际上是如何产生的。它迫使我更加仔细地思考基于理论的事物意味着什么。
HFBrowning

3

在某些情况下,似乎很显然理论可能最有效(小鼠尾巴的长度可能呈正态分布)。

尾巴的长度肯定不是正态分布的。

正态分布具有取零值的非零概率;尾巴长度不行。

乔治·鲍克斯(George Box)著名一句话所有模型都是错误的,但有些模型是有用的 ”,这一点相当清楚。实际上,我们可以合理地断言正常性(而不只是近似正常性)的情况确实很少见,几乎是传说中的生物,海市ages楼有时几乎瞥见了眼角。

在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。

如果您感兴趣的数量对选择不是特别敏感(只要分布的广泛特征与已知信息一致),那么可以,您可以使用非常合适的数量。

如果敏感性更高,仅靠使用合适的工具是不够的。我们可能会使用一些没有特殊假设的方法(也许是无发行程序,例如排列,自举或其他重采样方法,或者健壮的程序)。或者,我们可以量化对分布假设的敏感度,例如通过模拟(实际上,我认为这通常是个好主意)。

似乎存在一个问题,如果您真的不知道,也许应该只使用经验分布。

我不会将其描述为一个问题-基于经验分布的推论当然是适用于许多问题的合法方法(置换/随机化和自举是两个示例)。

有人有一致的方式来处理/思考这个问题吗?

广泛地说,在很多情况下,我倾向于考虑以下问题:

1)我对*这种形式的数据的含义(或其他位置类型的数量)的行为有什么了解*?

*(无论是从理论上,从这种数据形式的经验,还是从专家的建议,或者必要时从数据本身出发,尽管都存在必须解决的问题)

2)价差(方差,IQR等)如何表现?

3)其他分布特征(边界,偏度,离散度等)如何?

4)关于依赖关系,人口异质性,价值偶尔出现差异的趋势等

这种考虑可能会指导您在普通模型,GLM,某些其他模型或某些健壮或无分布的方法(例如自举法或置换/随机化方法,包括基于等级的过程)之间进行选择。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.