Questions tagged «poisson-distribution»

在非负整数上定义的离散分布,其平均数等于方差。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
泊松与指数分布之间的关系
泊松分布的等待时间是带有参数lambda的指数分布。但是我不明白。例如,泊松(Poisson)对每单位时间的到达次数进行建模。这与指数分布有何关系?假设以时间为单位的k到达概率为P(k)(由泊松建模),k + 1的概率为P(k + 1),那么指数分布如何建模它们之间的等待时间?

1
如何解释泊松回归中的系数?
我如何解释泊松回归中的主要影响(虚拟编码因子的系数)? 假设以下示例: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

1
为什么建议对计数数据使用平方根变换?
当您拥有计数数据时,通常建议取平方根。(有关简历一些例子,看看@ HarveyMotulsky的答案在这里,或@ whuber的答案在这里。)另外,装修与分布泊松响应变量广义线性模型时,日志是规范链接。这有点像对响应数据进行对数转换(尽管更准确地说,是对控制响应分布的参数进行对数转换)。因此,这两者之间存在某种张力。 λλ\lambda 您如何调和这种(明显的)差异? 为什么平方根比对数好?

2
泊松回归估计二元结果的相对风险
简要总结 为什么在具有二元结果的队列研究中使用逻辑回归(具有比值比),而不是与泊松回归(具有相对风险)相比,更普遍? 背景 根据我的经验,本科生和研究生的统计和流行病学课程通常会讲逻辑回归应用于对具有二元结果的数据进行建模,风险估计值以比值比报告。 但是,泊松回归(以及相关的:拟泊松,负二项式等)也可以用于对具有二元结果的数据进行建模,并通过适当的方法(例如鲁棒的三明治方差估计器)提供有效的风险估计和置信度。例如, Greenland S.,基于模型的相对风险和其他流行病学方法在共同结局研究和病例对照研究中的估计,Am J Epidemiol。2004年8月15日; 160(4):301-5。 Zou G.,使用二进制数据进行前瞻性研究的改进的Poisson回归方法,《美国流行病学杂志》。2004 Apr 1; 159(7):702-6。 Zou GY和Donner A.,将修正的Poisson回归模型扩展到具有相关二元数据的前瞻性研究,Stat Methods Med Res。2011年11月8日。 通过泊松回归,可以报告相对风险,其中一些人认为相对风险比与比值比更容易解释,尤其是对于频繁的结局,尤其是对于没有统计学背景的个人而言。请参见张J.和于克芬,相对风险是多少?一种校正常见结局队列研究中的优势比的方法,JAMA。1998年11月18日; 280(19):1690-1。 通过阅读医学文献,在具有二元结果的队列研究中,似乎似乎更普遍的是通过逻辑回归报告比值比,而不是通过泊松回归报告相对风险。 问题 对于具有二元结果的队列研究: 是否有充分的理由报告逻辑回归的优势比,而不是泊松回归的相对风险? 如果不是,医学文献中具有相对风险的Poisson回归频率不高是否可以归因于科学家,临床医生,统计学家和流行病学家在方法论理论与实践之间的滞后? 中间统计学和流行病学课程是否应包括更多关于二元结果的泊松回归的讨论? 我是否应该鼓励学生和同事在适当的时候考虑使用泊松回归而不是逻辑回归?


3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
有Poisson分布式数据的箱线图变体吗?
我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量? 对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。 但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X <L)<Pr(X> U)。是否有其他方法放置晶须,使其“适合”泊松分布?

4
我如何适合用于过度分散泊松结果的多级模型?
我想使用R来拟合具有Poisson分布(过度分散)的多级GLMM。此刻,我正在使用lme4,但是我注意到最近该quasipoisson家族被删除了。 我在其他地方看到过,您可以通过为每个观测值添加一个随机截距来为二项式分布建模加法过度弥散。这也适用于泊松分布吗? 有更好的方法吗?您还有其他推荐的软件包吗?


1
二项式分布函数何时高于/低于其极限泊松分布函数?
令表示二项分布函数(DF),其参数和在: \ begin {equation} B(n,p,r)= \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i(1-p)^ {ni},\ end {equation } 和让F(\ NU,R)表示泊松DF与参数A \在\ mathbb R 2 +在评价中的R \ \ {0,1,2,\ ldots \} : \开始{方程} F(一,r)= e ^ {-a} \ sum_ {i = 0} ^ r \ frac …

4
检查两个泊松样本的均值是否相同
这是一个基本问题,但我找不到答案。我有两个测量值:时间t1中的n1个事件和时间t2中的n2个事件,它们都是由泊松过程(可能具有不同的lambda值)产生的。 这实际上是来自新闻文章,该文章本质上声称自以来,两者是不同的,但是我不确定该声明是否有效。假设未恶意选择时间段(以最大化一个或另一个事件)。n1/t1≠n2/t2n1/t1≠n2/t2n_1/t_1\neq n_2/t_2 我可以做一个t检验,还是不合适?对于我来说,事件的数量太少了,无法轻松地将分布称为正常分布。


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
泊松分布与正态分布有何不同?
我生成了一个具有泊松分布的向量,如下所示: x = rpois(1000,10) 如果我使用制作直方图hist(x),则分布看起来像是熟悉的钟形正态分布。然而,使用柯尔莫哥洛夫-斯米尔诺夫测试ks.test(x, 'pnorm',10,3)说,分布显著不同的正态分布,由于非常小的p值。 所以我的问题是:当直方图看起来与正态分布非常相似时,泊松分布与正态分布有何不同?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.