模拟分布


9

我正在进行能力规划任务,并且已经阅读了一些书籍。这特别是关于分布。我用R

  1. 建议使用什么方法来确定我的数据分布是什么?有统计方法可以识别它吗?

我有这张图。

概率方法:场景分析,决策树和模拟

  1. 使用R有哪些可用的模拟方法?在这里,我想为特定分布(例如指数)生成数据。如果我想将r-java与Java集成,它是正确的方法吗?

  2. 当我通过管道传输特定分布的数据时,是否可以预测效果(CPU使用率等)的分布?发送某些数据分布有什么不同的影响?

请考虑这些作为初学者的问题。是否有涉及此类模拟的书籍或材料?

笔记

该图摘自论文的结尾http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf

我遇到过的健身技巧

拟合优度评估

  1. 卡方
  2. 柯尔莫哥洛夫-斯米尔诺夫,
  3. Anderson-Darling统计密度,CDF,PP和QQ图

如果我发现我的分布是正态分布或指数分布等,我不确定该怎么解释或下一步应该做些什么?它可以做什么?预测?希望这个问题清楚。

根据我的尼尔·冈瑟(Neil Gunther)的《能力规划》一书,指数延迟会导致队列波动。所以我知道这一点。


如果您认为图表很重要,则应该尝试改善图片的质量...
ocram 2012年

我感谢提出一个很好的问题所付出的努力。我认为您的观点2(我猜应该是3)需要澄清,或者您甚至可以将其移至Stack Overflow。
gui11aume12年

1
我想我的最后一个问题属于这里。假设我确定了我的数据分布。我是否预测未来的分配将遵循这种可能性?我在这里缺少数据分析部分。我知道箱须图很容易显示我理解的四分位数。我没有发行版的实用程序。我可能需要调查此分布的属性以进行预测。
Mohan Radhakrishnan 2012年

@ocram如果质量很差,请放大浏览器中的页面:详细信息在那里。顺便说一句,这些图像必须来自某些Crystal Ball文档。
ub

@whuber:确实,我什至没有尝试!对不起,您的评论。
ocram 2012年

Answers:


7

我将回答您有关使用R模拟的观点,因为这是我所熟悉的唯一模型。R有很多可以模拟的内置分布。命名的逻辑是模拟一个名为disname 的分布rdis

以下是我最常使用的

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

您可以在R的拟合分布中找到一些补数。

另外:感谢@jthetzel提供了一个链接,其中包含发行版及其所属软件包的完整列表。

但是,还有更多:好吧,按照@whuber的评论,我将尝试解决其他问题。关于第一点,我从不采用拟合优度方法。取而代之的是,我一直在思考信号的起源,例如引起这种现象的原因,产生信号的原因是否存在某些自然的对称性等。您需要涉及本书的几章内容,因此我仅举两个例子。

  1. 如果数据是计数且没有上限,则尝试泊松。泊松变量可以解释为时间窗口内连续独立计数,这是一个非常通用的框架。我对分布进行拟合,并(通常在视觉上)查看方差是否得到了很好的描述。通常,样本的方差要高得多,在这种情况下,我使用负二项式。负二项式可以解释为泊松与不同变量的混合,这种情况更为笼统,因此通常非常适合样本。

  2. 如果我认为数据在均值周围对称,偏差均可能为正或负,则尝试拟合高斯。然后,我再次(视觉上)检查是否有很多离群值,数据点离均值很远。如果有的话,我改用学生的t。学生的t分布可以解释为具有不同方差的高斯混合,这也是非常普遍的。

在这些示例中,当我目视地说时,是指我使用QQ图

要点3,也值得几个书的章节。使用分发而不是其他分发的影响是无限的。因此,我将继续上面的两个示例,而不是全部介绍。

  1. 在我成立之初,我不知道负二项式可以有一个有意义的解释,所以我一直都使用Poisson(因为我希望能够用人类的术语来解释参数)。通常,当您使用Poisson时,您可以很好地拟合均值,但会低估方差。这意味着您无法重现样本的极值,并且您会将这些值视为异常值(数据点与其他点的分布不相同),而实际上却不是。

  2. 再说一遍,我不知道学生的t也有有意义的解释,我会一直使用高斯。发生了类似的事情。我会很好地拟合均值和方差,但是我仍然不会捕获异常值,因为几乎所有数据点都应在均值的3个标准差之内。同样的事情发生了,我得出结论,有些观点是“非凡的”,而实际上并非如此。


2
的说明要添加到gui11aume的回答是:有一个在R的“d,P,Q,R”语法分布相关的功能。例如,dnormpnormqnorm,和rnorm是密度,累积分布函数(CDF),逆CDF,并正态分布的随机变量生成器函数分别。有关可用分布的完整列表,请参见概率分布任务视图
jthetzel 2012年

是的,非常感谢(+1)。我一直在寻找这样的清单很长时间。我将其放在答案中,以便使其更明显。
gui11aume12年

1
我什至不告诉你这些分布的三分之一。还有很多东西要学习...。+1,但我们不要忘记其余的问题,这是最基本的(但可能有点太宽泛):模拟中分布的选择会产生什么影响?人们应该如何做出这些选择?
ub

@whuber我添加了延迟的指数分布对队列波动的影响。参考。有关CP或排队的书籍。
Mohan Radhakrishnan 2012年

我已经阅读了R的拟合分布,也曾经使用QQ图。最大似然估计始于被称为样本数据似然函数的数学表达式。宽松地说,一组数据的似然度是在给定所选概率模型的情况下获得该特定数据集的概率。这是否意味着有一种方法可以计算出分布可以再次出现?要证明这一点需要多少测量?
Mohan Radhakrishnan 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.