这是一个哲学问题,但是我对其他有更多经验的人如何考虑分配选择感兴趣。在某些情况下,似乎很显然,理论可能最有效(小鼠尾巴的长度可能呈正态分布)。在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。我可以想象使用其中的一个或另一个会遇到一些陷阱,然后当然存在一个问题,就是如果您真的不知道,也许应该只使用经验分布。
所以我想我真正要问的是:有人是否有一致的方式来处理/思考这个问题?您是否有任何资源可以建议对此进行良好处理?
这是一个哲学问题,但是我对其他有更多经验的人如何考虑分配选择感兴趣。在某些情况下,似乎很显然,理论可能最有效(小鼠尾巴的长度可能呈正态分布)。在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。我可以想象使用其中的一个或另一个会遇到一些陷阱,然后当然存在一个问题,就是如果您真的不知道,也许应该只使用经验分布。
所以我想我真正要问的是:有人是否有一致的方式来处理/思考这个问题?您是否有任何资源可以建议对此进行良好处理?
Answers:
绝对取决于所讨论的数据是什么,以及人们对这些数据了解或希望承担的数量。正如@whuber在最近的聊天中所说: “涉及物理定律,您几乎总是可以对适当的数据建模方法做出合理的猜测。” (我怀疑这对他而言比对我而言更真实!而且,我希望这不会因其原始上下文而被误用...)在更像社会科学中潜在构造建模的情况下,专注于通常会很有用经验分布作为理解鲜为人知现象细微差别的一种方式。假定正态分布并忽略整体形状中的失配是微不足道的,这太容易了,并且将离群值视为错误而没有合理的理由而将其排除在外是很可能的。
当然,这种行为的很大一部分是由人们想要应用的分析假设所激发的。通常,最有趣的问题远远超出了变量分布的描述或分类。这也会影响给定场景的正确答案;由于非参数方法和其他健壮方法也不理想,因此当它不太适合(也不太适合)时,可能有理由(例如,电力需求)采用正态分布。然而,习惯性地这样做的风险是忘记问一个有趣的问题,一个人可以问一个变量的分布。
例如,考虑财富与幸福之间的关系:人们通常想问的一个普遍的问题。假设财富遵循伽马(Salem&Mount,1974)或广义贝塔(Parker,1999)分布可能是安全的,但是假设幸福是正态分布真的安全吗?确实,根本没有必要仅仅为了回答最初的问题就假设这一点,但是人们有时会这样做,然后忽略诸如响应偏差和文化差异之类的潜在重要问题。例如,某些文化倾向于给出或多或少的极端反应(请参阅@chl的关于由李克特项目组成的问卷的因素分析的答案),并且规范在正面和负面情绪的公开表达方面有所不同(Tucker,Ozer,Lyubomirsky和Boehm,2006年)。这可能会增加经验分布特征(如偏度和峰度)差异的重要性。如果我在俄罗斯,中国和美国比较财富与幸福的主观评价之间的关系,我可能想评估幸福评价的主要趋势之间的差异。这样做时,我会出于单向方差分析的考虑而假设每个区域的正态分布(即使对于违规行为可能相当健壮)),由于各种文化相关的规范和回应偏见,有理由期望中国的“散尾”分布,俄罗斯的正偏分布和美国的负偏分布。为了进行显着性检验(即使我可能更愿意诚实地报告效果大小),我宁愿使用非参数方法,并且为了真正理解每个人群的主观幸福感,我希望而不是凭经验描述分布,而不是尝试将其归类为一些简单的理论分布,并忽略或掩盖任何不当之处。这是对IMO信息的浪费。
参考
-Parker,SC(1999)。广义beta是收入分配的模型。经济学快报,62(2),197–200。
-塞勒姆(ABZ)和芒特(TD)(1974)。收入分配的便捷描述模型:伽玛密度。计量经济学,42(6),1115–1127。
-Tucker,KL,Ozer,DJ,Lyubomirsky,S.,&Boehm,JK(2006)。测试对生活尺度满意度的测量不变性:俄罗斯人和北美人的比较。社会指标研究,78(2),341–360。取自http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf。
老鼠的尾巴长度可能呈正态分布
我会怀疑的。正态分布来自许多独立的加性效应。生物系统由许多相互作用的反馈回路(相互依赖的乘法效应)组成。此外,通常有些州比其他州更稳定(即吸引者)。因此,某种长尾或多峰分布可能会描述尾长。实际上,正态分布可能是描述任何生物的非常差的默认选择,并且滥用是造成该文献报道的许多“异常值”的原因。自然界中这种分布的普遍性是一个神话,而不仅仅是“完美的圈子并不真正存在”的意义。但是,并不能说明均值和sd不能用作汇总统计信息。
尤其是因为我无法轻易确定何时最好“信任数据”(比如我拥有的这个时髦的右偏数据集,但是n = 160,这给定的数据似乎还不够),并且需要经验,或者像我的同事一样坚持将其安装到Beta版中。我怀疑他之所以选择它,仅是因为它的边界是[0,1]。这似乎只是临时的。希望这可以澄清我的意图!
拟合经验分布为基础过程提供了提示,这有助于理论分布的发展。然后将理论分布与经验分布进行比较,以检验该理论的证据。
如果您的目的是根据现有证据评估某些结果的可能性,而您没有理由选择该特定分布,我想我不认为做出额外的假设会有所帮助。相反,它似乎使事情变得混乱。
但是,如果您试图描述或汇总数据,则适合于分布。
在某些情况下,似乎很显然理论可能最有效(小鼠尾巴的长度可能呈正态分布)。
尾巴的长度肯定不是正态分布的。
正态分布具有取零值的非零概率;尾巴长度不行。
乔治·鲍克斯(George Box)著名的一句话 “ 所有模型都是错误的,但有些模型是有用的 ”,这一点相当清楚。实际上,我们可以合理地断言正常性(而不只是近似正常性)的情况确实很少见,几乎是传说中的生物,海市ages楼有时几乎瞥见了眼角。
在很多情况下,可能没有理论来描述一组数据,因此,无论原始开发用来描述什么,您都可以使用非常适合您的数据。
如果您感兴趣的数量对选择不是特别敏感(只要分布的广泛特征与已知信息一致),那么可以,您可以使用非常合适的数量。
如果敏感性更高,仅靠使用合适的工具是不够的。我们可能会使用一些没有特殊假设的方法(也许是无发行程序,例如排列,自举或其他重采样方法,或者健壮的程序)。或者,我们可以量化对分布假设的敏感度,例如通过模拟(实际上,我认为这通常是个好主意)。
似乎存在一个问题,如果您真的不知道,也许应该只使用经验分布。
我不会将其描述为一个问题-基于经验分布的推论当然是适用于许多问题的合法方法(置换/随机化和自举是两个示例)。
有人有一致的方式来处理/思考这个问题吗?
广泛地说,在很多情况下,我倾向于考虑以下问题:
1)我对*这种形式的数据的含义(或其他位置类型的数量)的行为有什么了解*?
*(无论是从理论上,从这种数据形式的经验,还是从专家的建议,或者必要时从数据本身出发,尽管都存在必须解决的问题)
2)价差(方差,IQR等)如何表现?
3)其他分布特征(边界,偏度,离散度等)如何?
4)关于依赖关系,人口异质性,价值偶尔出现差异的趋势等
这种考虑可能会指导您在普通模型,GLM,某些其他模型或某些健壮或无分布的方法(例如自举法或置换/随机化方法,包括基于等级的过程)之间进行选择。