Questions tagged «poisson-regression»

泊松回归是众多因变量(非负整数)的回归模型之一。更为通用的模型是负二项式回归。两者都有许多变体。

4
用于计数回归的诊断图
在结果是计数变量的情况下,您发现哪些诊断图(也许是形式测试)对回归分析最有帮助? 我对泊松模型和负二项式模型以及每种模型的零膨胀和跨栏模型特别感兴趣。我发现的大多数资源都只是将残差与拟合值作图,而没有讨论这些图“应该”是什么样。 智慧和参考非常感谢。关于我为什么要问这个问题(如果相关)的背景故事是我的另一个问题。 相关讨论: 解释glm模型的残留诊断图? 广义线性模型的假设 GLM-诊断和哪个系列


2
泊松和负二项式回归何时拟合相同的系数?
我已经注意到,在R中,泊松和负二项式(NB)回归似乎总是适合相同的系数,以用于分类但非连续的预测变量。 例如,这是带有分类预测变量的回归: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) 这是一个连续预测变量的示例,其中泊松和NB拟合不同的系数: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (当然,这些不是计数数据,模型也没有意义...) 然后,将预测变量重新编码为一个因子,然后两个模型再次拟合相同的系数: library(Hmisc) speedCat = cut2(cars$speed, g=5) #you can change …


3
泊松回归的残差与拟合值的解释图
我试图用R中的GLM(泊松回归)拟合数据。当我绘制残差与拟合值时,该图创建了多个(几乎是线性的,带有轻微的凹曲线)“线”。这是什么意思? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
非线性模型与广义线性模型:您如何指代逻辑回归,泊松等回归?
我有一个关于语义的问题,我希望统计学家能对此发表看法。 我们知道诸如logistic,泊松等模型属于广义线性模型。该模型包括参数的非线性函数,然后可以使用适当的链接函数,使用线性模型框架对其进行建模。 我想知道您是否考虑(教?)诸如逻辑回归这样的情况: 非线性模型,给定参数的形式 线性模型,因为链接将我们转换为线性模型框架 同时(1)和(2):“开始”为一个非线性模型,但可以这样一种方式使用,使我们可以将其视为线性模型 希望我可以进行一次实际的民意测验...

1
广义线性模型(GLM)的潜在变量解释
简洁版本: 我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量,该变量根据观察之前的某个固定阈值离散化。对于泊松回归,是否可以使用类似的潜在变量解释?当有两个以上的离散结果时,二项式回归(如logit或probit)怎么样?在最一般的层面上,是否有一种方法可以根据潜在变量来解释任何GLM? 长版: 以下是激发二进制结果的概率模型的标准方法(例如,来自Wikipedia)。我们有一个不可观测的/潜在的结果变量YYY,该变量以预测变量为正态分布XXX。该潜变量经过阈值处理,因此,如果,我们实际观察到的离散结果为,如果,则。这导致给定时的概率采用正态CDF形式,均值和标准差是阈值的函数 ý ≥ γ û = 0 ý &lt; γ Xu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0Y&lt;γY&lt;γY < \gammau=1u=1u=1XXXγγ\gamma和回归的斜率的。YYYXXX,分别。因此,以概率模型为动力,以此作为根据对潜在回归来估计斜率的一种方法。YYYXXX 下图来自Thissen&Orlando(2001)。这些作者在技术上从项目响应理论上讨论正常的ogive模型,该模型对于我们的目的而言很像概率回归(请注意,这些作者使用代替,并且概率用代替了通常的)。X Ť Pθθ\thetaXXXTTTPPP 我们可以以几乎完全相同的方式解释逻辑回归。唯一不同的是,现在没有观察到连续遵循物流配送,而不是一个正态分布,给出X。关于为什么的理论论证YYYXXX可能遵循逻辑分布而不是正态分布不太清楚...但是由于实际应用(在重新缩放后)所得的逻辑曲线看起来与正态CDF基本相同,因此可以说是“不会”。在实践中,使用哪种模型往往很重要。关键是两个模型都具有非常简单明了的潜在变量解释。YYY 我想知道我们是否可以将外观相似(或地狱外观不同)的潜在变量解释应用于其他GLM 甚至任何 GLM。 即使将上述模型扩展为考虑二项式结果(即,不仅仅是伯努利结果),对我来说也不是很清楚。大概可以通过想象,我们有多个阈值(比观察到的离散结果少一个),而不是只有一个阈值γ来做到这一点。但是我们需要对阈值施加一些约束,例如阈值是均匀分布的。我很确定像这样的东西可以工作,尽管我还没有弄清楚细节。n&gt;1n&gt;1n>1γγ\gamma 对我来说,转向泊松回归的情况似乎还不清楚。我不确定阈值的概念是否将是在这种情况下考虑模型的最佳方法。我也不确定我们可以将潜在结果设想为什么样的分布。 最理想的解决方案是用具有某些分布或其他形式的潜在变量来解释任何 GLM 的通用方法-即使该通用解决方案暗示的隐式变量解释与通常的logit / probit回归解释不同。当然,如果通用方法与对logit / probit的通常解释一致,而且自然扩展到其他GLM,那会更酷。 但是,即使在一般GLM案例中通常无法使用这种潜在变量解释,我也想听听有关特殊情况(例如我上面提到的Binomial和Poisson案例)的潜在变量解释。 参考文献 Thissen,D.&Orlando,M.(2001)。物品响应理论分为两类。在D.Thissen&Wainer,H.(编辑)的《测试评分》(第73-140页)中。新泽西州马瓦市:Lawrence Erlbaum Associates,Inc. 编辑2016-09-23 在某种意义上,任何GLM都是潜在变量模型,这就是说我们可以始终将估计的结果分布参数视为“潜在变量”,也就是说,我们不直接观察,例如泊松的rate参数,我们只是从数据中推断出来。我认为这是一个相当琐碎的解释,并不是我真正想要的解释,因为根据这种解释,任何线性模型(当然还有许多其他模型!)都是“潜在变量模型”。例如,在正态回归中,给定正态Y的“潜伏” μμ\muYYYXXX。因此,这似乎将潜在变量建模与仅参数估计混为一谈。例如,在泊松回归的情况下,我正在寻找的东西看起来更像是一个理论模型,它说明了观察到的结果为何首先应该具有泊松分布的情况,并给出了一些假设(由您填写!)。潜在的分布,选择过程(如果有的话)等。然后(也许很关键?),我们应该能够根据这些潜在分布/过程的参数来解释估计的GLM系数,类似于我们如何根据潜在正态变量的均值漂移和/或阈值γ的均值漂移,从概率回归中解释系数。YYYγγ\gamma

1
何时将Poisson,几何和负二项式GLM用于计数数据?
在GLM框架内(8个GLM分布中只有3个用于计数数据),我试图为自己布局适合何时使用哪种回归类型(几何,泊松,负二项式)和计数数据。我已阅读了有关负二项式和泊松分布的文章。 何时将Poisson,几何和负二项式GLM用于计数数据? 到目前为止,我有以下逻辑:它计数数据吗?如果是,均值和方差不相等吗?如果是,则为负二项式回归。如果否,则泊松回归。零通胀吗?如果是,则零泊松或零负二项式。 问题1似乎没有明确指示何时使用。有什么可以告知该决定的信息吗?据我了解,一旦您切换到ZIP,平均方差等于假设就可以放宽了,因此它再次与NB非常相似。 问题2几何族适用于此?在决定是否在回归中使用几何族时,我应该问数据什么样的问题? 问题3我看到人们一直在交换负二项式和泊松分布,而不是几何形状,因此我猜想何时使用它会有明显不同。如果是这样,那是什么? PS:如果人们想评论/调整它以便进行讨论,我已经制作了一个(根据评论可能过于简化)图表(可编辑)。

1
为什么GLM中的准泊松不被视为负二项式的特例?
我正在尝试将广义线性模型拟合到可能过度分散的某些计数数据集。此处适用的两个规范分布是泊松和负二项式(Negbin),其EV和方差μμ\mu VarP=μVarP=μVar_P = \mu VarNB=μ+μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} 可以分别使用glm(..,family=poisson)和将其安装在R中glm.nb(...)。还有一个quasipoisson家庭,以我的理解,这是一个经过调整的泊松,具有相同的EV和方差 VarQP=ϕμVarQP=ϕμVar_{QP} = \phi\mu, 即落在Poisson和Negbin之间。准泊松族的主要问题是没有相应的可能性,因此没有许多非常有用的统计检验和拟合度量(AIC,LR等)。 如果比较QP和Negbin方差,可能会注意到可以通过来使它们相等。继续这种逻辑,您可以尝试将准泊松分布表示为Negbin的特例:ϕ=1+μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1}), 即,一个\ theta的Negbin与\ muθθ\theta线性相关。我试图通过根据上述公式生成一个随机的数字序列并将其拟合为来验证这种想法:μμ\muglm #fix parameters phi = 3 a = 1/50 b = 3 x = 1:100 #generating points according to an exp-linear curve #this way …

1
拟合优度以及选择线性回归或泊松的模型
我需要针对我的研究中的两个主要难题提出一些建议,这是对三大制药和创新案例的研究。每年的专利数量是因变量。 我的问题是 好的模型最重要的标准是什么?什么更重要或更重要?是大多数还是所有变量都是有意义的?是“ F统计”的概率吗?它是“调整后的R平方”的值吗? 第二,如何确定最合适的研究模型?除了专利是​​计数变量(可能是泊松计数)之外,我还有一些解释性变量,例如资产回报率,研发预算,重复合伙人(不是二进制变量的百分比),公司规模(员工)等等。我应该做线性回归还是泊松?

4
为什么普通最小二乘法的性能优于泊松回归?
我试图通过回归分析来解释城市每个地区的凶杀案数量。尽管我知道我的数据遵循泊松分布,但我尝试像这样拟合OLS: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon 然后,我也尝试了(当然!)泊松回归。问题是我在OLS回归中有更好的结果:伪较高(0.71对0.57),RMSE也较高(3.8对8.88。标准化以具有相同的单位)。R2R2R^2 为什么?正常吗 无论数据分布如何,使用OLS都有什么问题? 编辑 根据kjetil b halvorsen等人的建议,我通过两个模型拟合了数据:OLS和负二项式GLM(NB)。我从拥有的所有功能开始,然后递归地逐一删除了不重要的功能。OLS是 crimearea−−−−√=α+βX+ϵcrimearea=α+βX+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon 权重=。areaareaarea summary(w &lt;- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area …

2
在泊松模型中,将时间用作协变量或偏移量有什么区别?
最近,我发现了如何使用(例如)时间的对数作为Poisson回归中的偏移量来建模随时间变化的曝光量。 我知道偏移量对应于时间与系数1协变量。 我想更好地了解使用时间作为偏移量或作为正常协变量(从而估算系数)之间的区别。在哪种情况下我应该使用一种方法或另一种方法? 升级:我不知道这是否有趣,但是我使用重复重复500次的随机拆分数据对这两种方法进行了验证,我注意到使用offset方法会导致更大的测试错误。



2
带有计数数据和过度分散的回归中的泊松还是拟泊松?
我有计数数据(根据可能的许多因素,对客户数量进行需求/报价分析)。我尝试使用正常错误进行线性回归,但是我的QQ图并不是很好。我尝试了答案的日志转换:再次是不良的QQ图。 所以现在,我正在尝试使用Poisson错误进行回归。使用具有所有重要变量的模型,我得到: Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 残余偏差大于残余自由度:我过于分散。 我怎么知道我是否需要使用准泊松?在这种情况下,拟泊松的目标是什么?我在克劳利(Crawley)的《 The R Book》中阅读了此建议,但我的观点并没有太大的改善。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.