我将回答您有关使用R模拟的观点,因为这是我所熟悉的唯一模型。R有很多可以模拟的内置分布。命名的逻辑是模拟一个名为dis
name 的分布rdis
。
以下是我最常使用的
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
您可以在R的拟合分布中找到一些补数。
另外:感谢@jthetzel提供了一个链接,其中包含发行版及其所属软件包的完整列表。
但是,还有更多:好吧,按照@whuber的评论,我将尝试解决其他问题。关于第一点,我从不采用拟合优度方法。取而代之的是,我一直在思考信号的起源,例如引起这种现象的原因,产生信号的原因是否存在某些自然的对称性等。您需要涉及本书的几章内容,因此我仅举两个例子。
如果数据是计数且没有上限,则尝试泊松。泊松变量可以解释为时间窗口内连续独立计数,这是一个非常通用的框架。我对分布进行拟合,并(通常在视觉上)查看方差是否得到了很好的描述。通常,样本的方差要高得多,在这种情况下,我使用负二项式。负二项式可以解释为泊松与不同变量的混合,这种情况更为笼统,因此通常非常适合样本。
如果我认为数据在均值周围对称,即偏差均可能为正或负,则尝试拟合高斯。然后,我再次(视觉上)检查是否有很多离群值,即数据点离均值很远。如果有的话,我改用学生的t。学生的t分布可以解释为具有不同方差的高斯混合,这也是非常普遍的。
在这些示例中,当我目视地说时,是指我使用QQ图
要点3,也值得几个书的章节。使用分发而不是其他分发的影响是无限的。因此,我将继续上面的两个示例,而不是全部介绍。
在我成立之初,我不知道负二项式可以有一个有意义的解释,所以我一直都使用Poisson(因为我希望能够用人类的术语来解释参数)。通常,当您使用Poisson时,您可以很好地拟合均值,但会低估方差。这意味着您无法重现样本的极值,并且您会将这些值视为异常值(数据点与其他点的分布不相同),而实际上却不是。
再说一遍,我不知道学生的t也有有意义的解释,我会一直使用高斯。发生了类似的事情。我会很好地拟合均值和方差,但是我仍然不会捕获异常值,因为几乎所有数据点都应在均值的3个标准差之内。同样的事情发生了,我得出结论,有些观点是“非凡的”,而实际上并非如此。