为什么分布很重要?


10

这可能和在该论坛上提出过的最愚​​蠢的问题一样,但是在收到上一个问题的合理答案后,我想我会再次运气。

一段时间以来,我一直对统计分布的重要性感到困惑,特别是因为它们与资产收益有关,更具体地说与资产分配有关。

我要具体说明的问题是:假设我有20年的标准普尔500指数月度回报数据,为什么在我可以简单地进行资产分配决策时,为什么我需要假设某种分配形式(即正态分布/约翰逊/征税飞行等)?只是根据我拥有的历史数据做出资产分配决策?


3
请记住,如果您发现上一个问题的答案有帮助,可以通过单击答案旁边的复选框将其标记为“已接受”。这样可以让其他人知道您的问题已解决。
杰夫

2
实际上,JDCook最近发布了有关该主题的文章。为了概述它与您的问题的相关性,我将在第一段中引用“统计人员分析数据时,他们不仅会查看您提供给他们的数据,还会考虑您可能带来的假设数据。换句话说, ,他们会考虑可能发生的事情以及实际发生的事情。”
user603 2012年

我相信塔勒布(Taleb)对于仅根据历史数据做出决策时存在的问题有说服力。(历史数据通常不会直接揭示这种罕见但可能致命的“黑天鹅”事件,直到为时已晚。)
胡言乱语

2
...因为大多数火鸡将在几周内实现。
Ryogi 2012年

为了扩展@ user603的观点-您想在样本之外进行推断。特别是,资产分配的重点与将来的行为有关,而不是过去的行为。例如,这包括事物在尾巴中的行为方式,您很少观察到。您可以通过分布假设引入有关流程的其他知识/理解/偏见。如果这些假设接近正确的地方,则可以添加很多信息。
Glen_b-恢复莫妮卡

Answers:


5

使用假定的分布(即参数分析)将减少方法的计算成本。我假设您想执行回归或分类任务。这意味着您将在某个时候估计一些数据的分布。当数据不符合深入研究的分布时,非参数方法很有用,但是它们通常需要更多的时间来计算或存储更多的内存。

同样,如果数据是由符合分布的过程生成的,例如它们是某些均匀随机过程的平均值,则使用该分布更有意义。在平均一组均匀变量的情况下,正确的分布可能是高斯分布。


0

补充詹姆斯的回答:参数模型(通常)还需要较少的样本才能具有良好的拟合度:这可能会提高其泛化能力:也就是说,他们可能会更好地预测新数据,甚至是错误的。当然,这取决于情况,模型和样本量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.