Questions tagged «poisson-distribution»

在非负整数上定义的离散分布,其平均数等于方差。

5
具有大数据的泊松回归:更改度量单位是否错误?
由于泊松分布中的阶乘,当观测值较大时,估计泊松模型(例如,使用最大似然)变得不切实际。因此,例如,如果我试图估计一个模型来解释给定年份的自杀数量(仅提供年度数据),并且说每年有数千个自杀,那么表达数百种自杀是否错误? ,则2998将为29.98〜= 30?换句话说,更改度量单位以使数据易于管理是否错误?


3
为什么CLT对不起作用?
因此,我们知道的和泊松与参数是本身泊松 。因此,假设可以取并说它实际上是,其中每个是:,并花大的n才能使CLT工作。nnnλλ\lambdanλnλn\lambdax∼poisson(λ=1)x∼poisson(λ=1)x \sim poisson(\lambda = 1) ∑n1xi∼poisson(λ=1)∑1nxi∼poisson(λ=1)\sum_1^n x_i \sim poisson(\lambda = 1) xixix_ixi∼poisson(λ=1/n)xi∼poisson(λ=1/n)x_i \sim poisson(\lambda = 1/n) 这(显然)不起作用。我认为这与CLT如何“更快”地处理与正常情况“更接近”的随机变量有关,并且lambda越小,我们得到的随机变量越多,该随机变量大多为0,并且很少变化。 但是,我的解释是我的直觉。是否有更正式的方式来解释为什么会这样? 谢谢!

4
为DNA测序确定负二项分布
负二项式分布已成为生物信息学中计数数据(特别是来自给定实验的基因组给定区域内预期的测序读数预期数量)的流行模型。解释各不相同: 一些人将其解释为类似于Poisson分布的工作原理,但具有附加参数,可以为真实分布建模提供更多自由,方差不一定等于均值 一些人将其解释为泊松分布的加权混合(在泊松参数上具有伽玛混合分布) 有没有办法将这些原理与负二项式分布的传统定义相吻合,即在看到一定数量的失败之前先对伯努利试验的成功次数进行建模?还是我应该将它作为泊松分布与伽玛混合分布的加权混合具有与负二项式相同的概率质量函数的快乐巧合?

3
泊松是指数级的,就像伽玛泊松是什么一样?
泊松分布可以测量单位时间内的事件,参数为。指数分布使用参数度量直到下一个事件的时间。一个可以将一个分布转换为另一个分布,这取决于对事件或时间进行建模更容易。λλ\lambda1λ1λ\frac{1}{\lambda} 现在,伽马-泊松是具有较大差异的“拉伸”泊松。威布尔分布是具有较大方差的“拉伸”指数。但是,可以像将Poisson转换成指数一样,轻松地将二者转换为彼此吗? 还是有一些其他分布更适合与伽马-泊松分布结合使用? 伽马泊松也称为负二项分布或NBD。

4
确定计数数据合适模型的策略
决定对计数数据使用哪种模型的合适策略是什么?我已经计算了需要建模为多级模型的数据,并建议我(在此站点上)做到这一点的最佳方法是通过错误或MCMCglmm。但是,我仍在尝试了解贝叶斯统计,并且我认为我应该首先尝试将我的数据拟合为广义线性模型,而忽略数据的嵌套结构(只是这样我才能对预期的结果有一个模糊的想法)。 大约70%的数据为0,方差与平均值的比率为33。因此,数据过于分散。 在尝试了许多不同的选择(包括泊松,负二项式,拟和零膨胀模型)之后,我发现结果的一致性非常差(从所有重要变量变为没有重要变量)。 我该如何基于0通货膨胀和过度分散做出明智的决定,以选择哪种类型的模型?例如,我怎么能推断准泊松比负二项式更合适(反之亦然),又怎会知道使用其中一个已经充分(或没有)处理了多余的零?同样,如果使用零膨胀模型,我如何评估不再有过度分散?还是应该在零膨胀的泊松和零膨胀的负二项式之间做出选择?


4
一堆飞机事故有多奇怪?
原始问题(14/7/25):新闻媒体的这句话是否有意义,或者是否有更好的统计方法来查看最近发生的飞机意外事件? 但是,巴内特(Barnett)也提请注意泊松分布的理论,这意味着两次碰撞之间的短暂间隔实际上比长时间碰撞更可能发生。 巴内特说:“假设每年平均发生一次致命事故,这意味着在任何一天发生车祸的可能性是365分之一。” “如果8月1日发生崩溃,则下次崩溃发生在8月2日一天之后的机会是1/365。但是下次崩溃发生在8月3日发生的机会是(364/365)x(1/365) ,因为只有在8月2日没有崩溃的情况下,下一次崩溃才会在8月3日发生。” 巴内特说:“这似乎是违反直觉的,但结论是无条件地根据概率定律得出的。” 资料来源:http : //www.bbc.com/news/magazine-28481060 说明性(14/7/27):(对我而言)反直觉的是,罕见事件往往会在很短的时间内发生。凭直觉,我认为罕见事件不会及时发生。有人能指出泊松分布假设下事件之间时间的理论或经验预期分布吗?(即,直方图,其中y轴是频率或概率,x轴是两次连续出现之间的时间,分为2天,数周,数月或数年等。)谢谢。 澄清(7/28/14):标题暗示比起广泛分布的事故,它更有可能发生事故簇。让我们对其进行操作。假设一个集群是3起飞机事故,短时间是3个月,长时间是3年。认为在3个月内发生3次事故的可能性比3年内发生事故的可能性更高,这似乎是不合逻辑的。即使我们将第一起事故定为自然事件,但认为未来3个月内与未来3年内还会再发生2起事故是不合逻辑的。如果这是真的,那么新闻媒体的标题就是误导和不正确的。我想念什么吗?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
如何使用R估计泊松过程?(或者:如何使用NHPoisson包?)
我有一个事件数据库(即日期变量)和相关的协变量。 这些事件是由非平稳泊松过程生成的,参数是某些协变量的未知(但可能是线性)函数。 我认为NHPoisson软件包仅用于此目的。但是经过15个小时的失败研究,我仍然不知道如何使用它。 哎呀,我什至尝试阅读两本参考书:Coles,S.(2001)。极值统计建模简介。施普林格。Casella,G.和Berger,RL,(2002年)。统计推断。布鲁克斯/科尔。 fitPP.fun文档中的一个示例似乎不适合我的设置;我没有极端的价值观!我只是裸露事件。 有人可以帮我举一个简单的例子,用单个协变量拟合参数的泊松过程,并假设吗?我对和估计很感兴趣。我提供了一个包含事件时间的两列数据集(假设是在任意时间之后以秒为单位测量),而另一列则提供了协变量?的值。λλ\lambdaXXXλ=λ0+α⋅Xλ=λ0+α⋅X\lambda = \lambda_0 + \alpha \cdot Xλ0λ0\lambda_0αα\alphat0t0t_0XXX

11
非泊松过程的例子?
我正在寻找一些不适合使用Poisson分布进行建模的情况的好例子,以帮助我向学生解释Poisson分布。 通常可以使用一个时间间隔内到达商店的顾客数量作为示例,该示例可以通过泊松分布进行建模。我正在寻找类似的反例,即这种情况可以视为连续时间内的正计数过程,而这显然不是泊松。 理想情况下,情况应尽可能简单明了,以使学生易于掌握和记住。


2
用过度分散对泊松分布建模
我有一个数据集,我希望它遵循泊松分布,但它的分散程度约为3倍。目前,我正在使用R中的以下代码对这种过度分散进行建模。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 从视觉上看,这似乎非常符合我的经验数据。如果我对拟合感到满意,是否有任何理由应该做一些更复杂的事情,例如使用负二项式分布(如此处所述)?(如果是这样,那么这样做的任何指针或链接将不胜感激)。 哦,我知道这会创建一个稍微呈锯齿状的分布(由于乘以三),但这对我的应用程序来说并不重要。 更新: 为了其他人搜索和发现此问题,这里有一个简单的R函数,它使用负二项分布来建模过度分散的泊松。将d设置为所需的均值/方差比: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (通过R邮件列表:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)

7
直观地理解为什么泊松分布是二项式分布的极限情况
在DS Sivia的“数据分析”中,从二项式分布推导了泊松分布。 他们认为,当M→∞M→∞M\rightarrow\infty,泊松分布是二项式分布的极限情况,其中MMM是试验次数。 问题1:如何直观地理解该论点? 问题2:为什么large- MMM的限制M!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}等于MNN!MNN!\frac{M^{N}}{N!},其中M次试验的成功次数为?(此步骤用于推导中。)NNNMMM


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.