Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

2
运行glm时出现错误“系统在计算上是奇异的”
我正在使用robustbase程序包来运行glm估计。但是,当我这样做时,出现以下错误: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 这是什么意思/表示?我该如何调试呢? PS。如果您需要任何答案(公式/规格或数据),我将很乐意提供。

4
GLM的伪R平方公式
我在《用R扩展线性模型》一书朱利安·J·法拉维(第59页)中找到了伪的公式。[R2[R2R^2 1 - ResidualDeviance空距离1个-残差空距离1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 这是GLM的伪的通用公式吗?[R2[R2R^2

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
广义估计方程和GLMM有什么区别?
我正在使用logit链接在3级不平衡数据上运行GEE。这与混合效果(GLMM)和logit链接的GLM有什么不同(就我得出的结论和系数的含义而言)? 更多详细信息:观察结果是单次bernoulli试验。它们分为教室和学校。使用R。按需省略NA。6个预测变量也包括交互项。 (我不是要让孩子们抬头看他们是否抬头。) 我倾向于对系数进行比对。两者的含义是否相同? 关于GEE模型中的“边际均值”,我的内心深处潜藏着一些东西。我需要向我解释一下。 谢谢。

3
为什么不将Beta / Dirichlet回归视为广义线性模型?
前提是来自R封装betareg1小插图的报价。 此外,该模型与广义线性模型(GLM; McCullagh and Nelder 1989)具有一些共同的属性(例如线性预测变量,链接函数,色散参数),但这不是该框架的特殊情况(即使对于固定色散也不是) ) 这个答案也暗示了这一事实: [...]这是一种回归模型,当响应变量以Beta形式分发时适用。您可以将其视为 类似于广义线性模型。这正是您正在寻找的(重点是我的) 问题标题说明了一切:为什么不将Beta / Dirichlet回归视为广义线性模型(不是)? 据我所知,广义线性模型定义的模型建立在对期望变量的期望之上,这些期望变量以独立变量为条件。 fff是链接函数的期望映射,ggg是概率分布,YYY结果和XXX的predictiors,ββ\beta是线性参数和σ2σ2\sigma^2的方差。 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) 不同的GLM会强加(或放宽)均值和方差之间的关系,但是必须是指数族中的概率分布,这是一种理想的属性,如果我没有记错的话,应该可以提高估计的鲁棒性。但是,Beta和Dirichlet分布是指数族的一部分,所以我没有主意。ggg [1] Cribari-Neto,F.和Zeileis,A.(2009)。R中的Beta回归。

3
拟合R的负二项式回归中的theta是多少?
我有一个关于负二项式回归的问题:假设您有以下命令: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (请注意,cars是R中可用的数据集,我并不在乎这个模型是否有意义。) 我想知道的是:如何解释变量theta(在调用的底部返回summary)。这是负数分布的形状参数,是否可以将其解释为偏度的度量?

2
广义线性(混合)模型(特别是残差)的诊断
我目前正在努力为困难计数数据(因变量)找到正确的模型。我尝试了各种不同的模型(对于我的数据,混合效果模型是必需的),例如lmer和lme4(使用对数变换),以及具有各种族(例如高斯或负二项式)的广义线性混合效果模型。 但是,我不确定如何正确诊断结果拟合。我在网络上发现了关于该主题的许多不同意见。我认为关于线性(混合)回归的诊断非常简单。您可以继续进行分析残差(正态),并通过绘制拟合值与残差比较来研究异方差。 但是,您如何针对通用版本正确执行此操作?现在让我们关注负二项式(混合)回归。我在这里看到了关于残差的非常相反的说法: 在第一个答案中指出,在广义线性模型中检查残差的正态性时,对于GLM,普通残差不是正态分布的。我认为这很清楚。但是,然后指出,皮尔逊和偏差残差也不应该是正常的。但是,第二个答案指出,偏差残差应该正态分布(与参考值结合)。 不过,?glm.diag.plots(来自R的boot软件包)的文档中暗示了异常残差应该以正态分布。 在这篇博客文章中,作者首先研究了NB混合效应回归模型中Pearson残差的正态性。不出所料(根据我的诚实观点),残差未显示为正常,因此作者认为此模型不合适。但是,如评论中所述,残差应根据负二项式分布进行分配。我认为,这与事实最接近,因为GLM残差可以具有除正态分布以外的其他分布。它是否正确?如何在此处检查异方差性? Ben&Yohai(2004)强调了最后一点(将残差与估计分布的分位数作图)。目前,这似乎是我要走的路。 简而言之:如何特别针对残差,如何正确研究广义线性(混合)回归模型的模型拟合?

3
泊松回归的残差与拟合值的解释图
我试图用R中的GLM(泊松回归)拟合数据。当我绘制残差与拟合值时,该图创建了多个(几乎是线性的,带有轻微的凹曲线)“线”。这是什么意思? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
比较R中发生GLM后的因素水平
以下是有关我的处境的一些背景信息:我的数据是指被捕食者成功吃掉的猎物的数量。由于每个试验中猎物的数量都是有限的(可用25个),因此我有一列“ Sample”代表可用猎物的数量(因此,每个试验中有25个),另外一个名为“ Count”的数字表示成功的数量(吃了多少猎物)。我的分析基于R书中有关比例数据的示例(第578页)。解释变量是温度(4个级别,我将其视为因素)和捕食者的性别(显然是雄性还是雌性)。所以我最终得到这个模型: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) 得出“偏差分析”表后,事实证明,温度和性别(但不存在相互作用)对猎物的消耗有显着影响。现在,我的问题是:我需要知道哪个温度不同,即,我必须将这四个温度相互比较。如果我有线性模型,则可以使用TukeyHSD函数,但由于使用的是GLM,所以不能。我一直在浏览MASS软件包,并尝试建立一个对比度矩阵,但是由于某种原因它不起作用。有什么建议或参考吗? 这是我从模型中获得的摘要,如果可以使它更清楚…… y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

1
非线性模型与广义线性模型:您如何指代逻辑回归,泊松等回归?
我有一个关于语义的问题,我希望统计学家能对此发表看法。 我们知道诸如logistic,泊松等模型属于广义线性模型。该模型包括参数的非线性函数,然后可以使用适当的链接函数,使用线性模型框架对其进行建模。 我想知道您是否考虑(教?)诸如逻辑回归这样的情况: 非线性模型,给定参数的形式 线性模型,因为链接将我们转换为线性模型框架 同时(1)和(2):“开始”为一个非线性模型,但可以这样一种方式使用,使我们可以将其视为线性模型 希望我可以进行一次实际的民意测验...

2
为什么会有两种不同的逻辑损失表述/符号?
我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的,唯一的区别是标签的定义。yyy 公式/符号1,:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 其中p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)},其中逻辑函数将实数\ beta ^ T x映射βŤXβŤX\beta^T x到0.1区间。 公式/符号2,ÿ∈ { − 1 ,+ 1 }ÿ∈{-1个,+1个}y \in \{-1, +1\}: 大号(ÿ,βŤx )= 对数(1 + 经验(- ÿ·&βŤx))大号(ÿ,βŤX)=日志⁡(1个+经验值⁡(-ÿ⋅βŤX)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 选择一种表示法就像选择一种语言一样,使用一种或另一种是有利有弊。这两种表示法的优缺点是什么? 我试图回答这个问题的尝试是,统计学界似乎喜欢第一种表示法,而计算机科学界似乎喜欢第二种表示法。 第一种表示法可以用术语“概率”来解释,因为逻辑函数将实数βŤXβŤX\beta^Tx为0.1区间。 第二种表示法更简洁,可以更轻松地与铰链损失或0-1损失进行比较。 我对吗?还有其他见解吗?

6
高级回归建模示例
我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。

3
方差不等的回归建模
我想拟合一个线性模型(lm),其中残差方差显然取决于解释变量。 我知道的方法是将glm与Gamma族一起使用,对方差建模,然后将其逆值放入lm函数的权重中(例如:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 我在想: 这是唯一的技术吗? 还有哪些其他相关方法? 哪些R包/功能与此类建模相关?(其他然后是glm,lm)

2
回归中的Wald检验(OLS和GLM):t分布与z分布
我了解Wald回归系数检验基于渐近成立的以下属性(例如Wasserman(2006):All Statistics,第153、214-215页): 其中表示估计的回归系数,\ widehat {\ operatorname {se}}(\ hat {\ beta})表示回归系数的标准误差,\ beta_ {0}是相关值(\ beta_ {0}通常为0,以测试系数是否为与0明显不同)。这样大小\阿尔法 Wald检验是:拒绝H_ {0}时(β^- β0)SEˆ(β^)〜ñ(0 ,1 )(β^-β0)SE^(β^)〜ñ(0,1个) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ(β^)SE^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| w ^| > zα / 2|w ^|>žα/2|W|> z_{\alpha/2},其中 w ^= β^SEˆ(β^)。w ^=β^SE^(β^)。 W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. 但是,当您使用lmR 进行线性回归时,将使用ŤŤt值而不是žžz值来测试回归系数是否显着不同于0(带有summary.lm)。此外,glmR中的输出有时会给出žžz,有时会给出ŤŤt作为测试统计量。显然,假设色散参数已知时使用z值,而模拟色散参数则使用t值(请参阅此链接)。žžzŤŤt 有人可以解释一下,为什么即使系数和其标准误的比率被假定为标准正态分布,但有时还是将ŤŤt用于Wald检验? 回答问题后进行编辑 这篇文章还为问题提供了有用的信息。

1
广义线性模型(GLM)的潜在变量解释
简洁版本: 我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量,该变量根据观察之前的某个固定阈值离散化。对于泊松回归,是否可以使用类似的潜在变量解释?当有两个以上的离散结果时,二项式回归(如logit或probit)怎么样?在最一般的层面上,是否有一种方法可以根据潜在变量来解释任何GLM? 长版: 以下是激发二进制结果的概率模型的标准方法(例如,来自Wikipedia)。我们有一个不可观测的/潜在的结果变量YYY,该变量以预测变量为正态分布XXX。该潜变量经过阈值处理,因此,如果,我们实际观察到的离散结果为,如果,则。这导致给定时的概率采用正态CDF形式,均值和标准差是阈值的函数 ý ≥ γ û = 0 ý &lt; γ Xu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0Y&lt;γY&lt;γY < \gammau=1u=1u=1XXXγγ\gamma和回归的斜率的。YYYXXX,分别。因此,以概率模型为动力,以此作为根据对潜在回归来估计斜率的一种方法。YYYXXX 下图来自Thissen&Orlando(2001)。这些作者在技术上从项目响应理论上讨论正常的ogive模型,该模型对于我们的目的而言很像概率回归(请注意,这些作者使用代替,并且概率用代替了通常的)。X Ť Pθθ\thetaXXXTTTPPP 我们可以以几乎完全相同的方式解释逻辑回归。唯一不同的是,现在没有观察到连续遵循物流配送,而不是一个正态分布,给出X。关于为什么的理论论证YYYXXX可能遵循逻辑分布而不是正态分布不太清楚...但是由于实际应用(在重新缩放后)所得的逻辑曲线看起来与正态CDF基本相同,因此可以说是“不会”。在实践中,使用哪种模型往往很重要。关键是两个模型都具有非常简单明了的潜在变量解释。YYY 我想知道我们是否可以将外观相似(或地狱外观不同)的潜在变量解释应用于其他GLM 甚至任何 GLM。 即使将上述模型扩展为考虑二项式结果(即,不仅仅是伯努利结果),对我来说也不是很清楚。大概可以通过想象,我们有多个阈值(比观察到的离散结果少一个),而不是只有一个阈值γ来做到这一点。但是我们需要对阈值施加一些约束,例如阈值是均匀分布的。我很确定像这样的东西可以工作,尽管我还没有弄清楚细节。n&gt;1n&gt;1n>1γγ\gamma 对我来说,转向泊松回归的情况似乎还不清楚。我不确定阈值的概念是否将是在这种情况下考虑模型的最佳方法。我也不确定我们可以将潜在结果设想为什么样的分布。 最理想的解决方案是用具有某些分布或其他形式的潜在变量来解释任何 GLM 的通用方法-即使该通用解决方案暗示的隐式变量解释与通常的logit / probit回归解释不同。当然,如果通用方法与对logit / probit的通常解释一致,而且自然扩展到其他GLM,那会更酷。 但是,即使在一般GLM案例中通常无法使用这种潜在变量解释,我也想听听有关特殊情况(例如我上面提到的Binomial和Poisson案例)的潜在变量解释。 参考文献 Thissen,D.&Orlando,M.(2001)。物品响应理论分为两类。在D.Thissen&Wainer,H.(编辑)的《测试评分》(第73-140页)中。新泽西州马瓦市:Lawrence Erlbaum Associates,Inc. 编辑2016-09-23 在某种意义上,任何GLM都是潜在变量模型,这就是说我们可以始终将估计的结果分布参数视为“潜在变量”,也就是说,我们不直接观察,例如泊松的rate参数,我们只是从数据中推断出来。我认为这是一个相当琐碎的解释,并不是我真正想要的解释,因为根据这种解释,任何线性模型(当然还有许多其他模型!)都是“潜在变量模型”。例如,在正态回归中,给定正态Y的“潜伏” μμ\muYYYXXX。因此,这似乎将潜在变量建模与仅参数估计混为一谈。例如,在泊松回归的情况下,我正在寻找的东西看起来更像是一个理论模型,它说明了观察到的结果为何首先应该具有泊松分布的情况,并给出了一些假设(由您填写!)。潜在的分布,选择过程(如果有的话)等。然后(也许很关键?),我们应该能够根据这些潜在分布/过程的参数来解释估计的GLM系数,类似于我们如何根据潜在正态变量的均值漂移和/或阈值γ的均值漂移,从概率回归中解释系数。YYYγγ\gamma

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.