Questions tagged «negative-binomial»

离散的单变量分布,对尝试成功的次数进行建模,直到发生指定次数的失败为止。 Bernoulli(p)

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
负二项式GLM与计数数据的对数转换:I型错误率增加
你们中有些人可能已经读过这篇不错的论文: O'Hara RB,Kotze DJ(2010)不要对计数数据进行对数转换。《生态与进化方法》 1:18–122。克利克。 在我的研究领域(生态毒理学)中,我们正在处理重复性较差的实验,并且GLM并未得到广泛使用。因此,我进行了类似于O'Hara&Kotze(2010)的模拟,但是模拟了生态毒理学数据。 功率模拟: 我模拟了一个有一个对照组()和5个治疗组()的阶乘设计的数据。处理1中的丰度与对照()相同,处理2-5中的丰度是对照中的丰度的一半()。对于模拟,我改变了样本大小(3、6、9、12)和对照组的丰度(2、4、8,...,1024)。从具有固定色散参数()的负二项式分布中提取丰度。使用负二项式GLM和高斯GLM +对数转换的数据生成并分析了100个数据集。μ 1 - 5 μ 1 = μ Ç μ 2 - 5 = 0.5 μ C ^ θ = 3.91μCμc\mu_cμ1 - 5μ1−5\mu_{1-5}μ1个= μCμ1个=μC\mu_1 = \mu_cμ2 - 5= 0.5 μCμ2-5=0.5μC\mu_{2-5} = 0.5 \mu_c角= 3.91θ=3.91\theta = 3.91 结果符合预期:GLM具有更大的功效,尤其是在采样的动物不多的情况下。 代码在这里。 类型I错误: 接下来,我看了一眼错误。如上所述进行模拟,但是所有组具有相同的丰度()。μC= μ1 - …

2
描述负二项式分布变量之间差异的分布?
一个Skellam分布描述了具有泊松分布的两个变量之间的区别。是否存在类似的分布来描述遵循负二项式分布的变量之间的差异? 我的数据是通过泊松过程生成的,但包含大量噪声,导致分布的过度分散。因此,使用负二项式(NB)分布对数据建模非常有效。如果要对这两个NB数据集之间的差异进行建模,我有哪些选择?如果有帮助,则假设两组的均值和方差相似。

3
在N次成功之前,我该如何模拟翻转?
你和我决定玩一个游戏,大家轮流掷硬币。第一位总共翻转10个头的玩家将赢得比赛。自然,关于谁应该先走有一个争论。 此游戏的模拟结果显示,前一个掷骰的玩家比第二个掷骰的玩家赢6%(第一个掷骰的玩家大约有53%的时间获胜)。我有兴趣对此进行建模分析。 这不是二项式随机变量,因为没有固定的试验次数(直到有人得到10个脑袋时才翻转)。我该如何建模?它是负二项式分布吗? 为了能够重新创建我的结果,这是我的python代码: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …

2
一个不可能的估计问题?
题 负二项式(NB)分布的方差始终大于其均值。当样本均值大于其方差时,尝试以最大似然或矩估计拟合NB的参数将失败(没有有限参数的解决方案)。 但是,从NB分布获取的样本的平均值可能大于方差。这是R中的可复制示例。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NB将产生无法估计参数的样本的可能性为非零(通过最大似然法和矩量法)。 可以对此样本给出合理的估计吗? 当没有为所有样本定义估计量时,估计理论怎么说? 关于答案 @MarkRobinson和@Yves的答案使我意识到参数化是主要问题。NB的概率密度通常写为 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k 或 P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 在第一个参数化下,每当样本的方差小于均值时,最大似然估计为,因此关于p不能说有用。根据第二,它是(∞ ,ˉ X),所以我们可以给的合理估计米。最后,@ MarkRobinson表明我们可以使用r解决无限值问题(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmm代替r。r1+rr1+r\frac{r}{1+r}rrr 总之,这个估计问题从根本上没有错,只是您不能总是对每个样本给出和p的有意义的解释。公平地说,这两个答案中都包含了这些想法。我选择@MarkRobinson中的那个作为他给出的补码的正确选择。rrrppp

2
如何拟合离散分布以计算数据?
我有以下计数数据的直方图。我想为其分配一个离散的分布。我不确定该如何处理。 我是否应该首先在直方图上叠加离散分布(例如负二项分布),以便获得离散分布的参数,然后运行Kolmogorov–Smirnov检验以检查p值? 我不确定此方法是否正确。 是否有解决此类问题的通用方法? 这是计数数据的频率表。在我的问题中,我只关注非零计数。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:我想问:我在R中使用fitdistr函数来获取用于拟合数据的参数。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 然后,在直方图的顶部绘制泊松分布的概率质量函数。 但是,似乎泊松分布无法对计数数据建模。有什么我可以做的吗?

3
R中的零膨胀负二项式混合效应模型
是否有提供R中零膨胀负二项式混合效应模型估计的软件包? 我的意思是: 零充气,您可以在其中为零充气指定二项式模型,例如pscl包中的功能zeroinfl: zeroinfl(y〜X | Z,dist =“ negbin”) 其中Z是零通胀模型的公式; 模型计数部分的负二项式分布; 指定的随机效果类似于软件包lme4的功能lmer。 我知道glmmADMB可以做所有的事情,除了不能指定零通货膨胀的公式(这只是一个截距,即Z仅为1)。但是还有其他软件包可以做到吗? 我将非常感谢您的帮助!

4
为DNA测序确定负二项分布
负二项式分布已成为生物信息学中计数数据(特别是来自给定实验的基因组给定区域内预期的测序读数预期数量)的流行模型。解释各不相同: 一些人将其解释为类似于Poisson分布的工作原理,但具有附加参数,可以为真实分布建模提供更多自由,方差不一定等于均值 一些人将其解释为泊松分布的加权混合(在泊松参数上具有伽玛混合分布) 有没有办法将这些原理与负二项式分布的传统定义相吻合,即在看到一定数量的失败之前先对伯努利试验的成功次数进行建模?还是我应该将它作为泊松分布与伽玛混合分布的加权混合具有与负二项式相同的概率质量函数的快乐巧合?

3
泊松是指数级的,就像伽玛泊松是什么一样?
泊松分布可以测量单位时间内的事件,参数为。指数分布使用参数度量直到下一个事件的时间。一个可以将一个分布转换为另一个分布,这取决于对事件或时间进行建模更容易。λλ\lambda1λ1λ\frac{1}{\lambda} 现在,伽马-泊松是具有较大差异的“拉伸”泊松。威布尔分布是具有较大方差的“拉伸”指数。但是,可以像将Poisson转换成指数一样,轻松地将二者转换为彼此吗? 还是有一些其他分布更适合与伽马-泊松分布结合使用? 伽马泊松也称为负二项分布或NBD。

4
确定计数数据合适模型的策略
决定对计数数据使用哪种模型的合适策略是什么?我已经计算了需要建模为多级模型的数据,并建议我(在此站点上)做到这一点的最佳方法是通过错误或MCMCglmm。但是,我仍在尝试了解贝叶斯统计,并且我认为我应该首先尝试将我的数据拟合为广义线性模型,而忽略数据的嵌套结构(只是这样我才能对预期的结果有一个模糊的想法)。 大约70%的数据为0,方差与平均值的比率为33。因此,数据过于分散。 在尝试了许多不同的选择(包括泊松,负二项式,拟和零膨胀模型)之后,我发现结果的一致性非常差(从所有重要变量变为没有重要变量)。 我该如何基于0通货膨胀和过度分散做出明智的决定,以选择哪种类型的模型?例如,我怎么能推断准泊松比负二项式更合适(反之亦然),又怎会知道使用其中一个已经充分(或没有)处理了多余的零?同样,如果使用零膨胀模型,我如何评估不再有过度分散?还是应该在零膨胀的泊松和零膨胀的负二项式之间做出选择?



2
解释发生率比
因此,我想拟合一个随机效应负二项式模型。对于这种模型,STATA可以产生指数系数。根据帮助文件,这些系数可以解释为发生率。不幸的是,我不是英语为母语的人,我也不是很了解什么是发病率比率或如何翻译它们。 所以我的问题是,我该如何解释发生率。例如: 如果模型给我一个变量的发生率比为0.7。这将意味着依赖变数的预期观察数(计数)。如果独立var改变一个单位,则改变.7吗? 有人可以帮忙吗?

1
用分类数据解释负二项式GLM的.L和.Q输出
我只是运行负二项式GLM,这是输出: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.