Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

2
GLM族代表响应变量或残差的分布?
我一直在与几个实验室成员讨论这个问题,我们已经到了多个来源,但仍然没有答案: 当我们说一个GLM有一个泊松族时,我们说的是在谈论残差或响应变量的分布吗? 争论点 阅读此文章也指出,GLM的假设是观察的统计独立性,链接和方差函数的正确规范(这让我想起了残差,不响应变量),计量正确的比例为响应变量且缺乏单点的不当影响 这个问题有两个答案,每个答案都有两点,出现的第一个是关于残差的,第二个是关于响应变量的,是吗? 在此博客文章中,当谈到假设时,他们说“ 残差的分布可以是其他分布,例如二项式 ” 在年初这一章他们说,错误的结构必须是泊松,但残差必将有积极和消极的价值观,怎么可能泊松? 这个问题经常在诸如此类的问题中被引用,以使它们重复,但没有公认的答案 这个问题的答案谈论的是回应而不是残差 在这个从Pensilvania大学课程说明他们谈论的假设,而不是残差响应变量

1
R中二项式glm中响应的输入格式
在中R,有三种方法可以使用glm函数来格式化输入数据以进行逻辑回归: 对于每个观察,数据可以采用“二进制”格式(例如,对于每个观察,y = 0或1); 数据可以采用“ Wilkinson-Rogers”格式(例如y = cbind(success, failure)),每一行代表一种治疗;要么 数据可以是每个观测值的加权格式(例如,y = 0.3,权重= 10)。 这三种方法均产生相同的系数估计值,但自由度以及由此产生的偏差值和AIC分数不同。后两种方法具有较少的观测值(因此也具有自由度),因为它们将每种处理用于观测值的数量,而第一种方法将每种观测值用作观测值的数量。 我的问题:使用一种输入格式比使用另一种输入格式有数字或统计优势吗?我看到的唯一好处是不必重新格式化数据R即可与模型一起使用。 我查看了glm文档,在网络上搜索了该站点,发现了一个与切向相关的帖子,但没有有关该主题的指导。 这是一个模拟示例,演示了此行为: # Write function to help simulate data drc4 <- function(x, b =1.0, c = 0, d = 1, e = 0){ (d - c)/ (1 + exp(-b * (log(x) - log(e)))) } # …

1
您可以简单地对IRLS方法进行直观的解释,以找到GLM的MLE吗?
背景: 我正在尝试遵循普林斯顿对GLM的MLE估计的评论。 我明白MLE估计的基础:likelihood,score,观察和期望Fisher information与Fisher scoring技术。而且我知道如何用MLE估计来证明简单的线性回归。 问题: 我什至不了解这种方法的第一行:( 工作变量定义为以下内容的直觉是什么:ž一世ziz_i ž一世= η^一世+ (y一世- μ^一世)dη一世dμ一世zi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} 为什么用它们代替来估计β?ÿ一世yiy_iββ\beta 它们与的关系response/link function是和μ之间的关系ηη\etaμμ\mu 如果有人有一个简单的解释,或者可以指导我获得更基本的说明,我将不胜感激。

4
解释glmer中的随机效应方差
我正在修订有关授粉的论文,其中数据按二项分布(水果成熟或没有成熟)。因此,我使用glmer了一种随机效果(单个植物)和一种固定效果(治疗)。审稿人想知道植物是否对坐果有影响-但我在解释glmer结果时遇到困难。 我已经在网络上阅读过,似乎直接比较glm和glmer模型可能存在问题,所以我没有这样做。我认为回答这个问题的最直接方法是将随机效应方差(下面的1.449)与总方差进行比较,或者将处理结果解释为方差。但是,如何计算这些其他方差?它们似乎未包含在下面的输出中。我读到一些关于二项式不包括残差的信息glmer-我如何解释随机效应的相对重要性? > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance df.resid 125.9 131.5 -59.0 117.9 26 Scaled residuals: Min 1Q Median 3Q Max -2.0793 -0.8021 -0.0603 0.6544 …

1
对数链接的Gamma GLM与对数链接的高斯GLM与对数转换的LM
从我的结果来看,GLM Gamma似乎可以满足大多数假设,但这是否是对数转换后的LM值得的改进?我发现的大多数文献都涉及泊松或二项式GLM。我发现使用随机化对广义线性模型假设进行评估非常有用,但是缺少用于做出决策的实际图。希望有经验的人可以为我指明正确的方向。 我想对响应变量T的分布进行建模,其分布如下图所示。如您所见,这是正偏度: 。 我要考虑两个类别因素:METH和CASEPART。 请注意,该研究主要是探索性的,本质上是在对模型进行理论化并围绕模型进行DoE之前作为试点研究。 我在R中具有以下模型及其诊断图: LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) 我还通过Shapiro-Wilks残差检验获得了以下P值: LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 我计算了AIC和BIC值,但是如果我是正确的话,由于GLM / LM中的族不同,它们并不能告诉我太多。 另外,我注意到了极端值,但是由于没有明确的“特殊原因”,因此无法将它们分类为异常值。

2
了解GLM中的虚拟(手动或自动)变量创建
如果在glm公式中使用了因子变量(例如,具有M和F级的性别),则会创建一个或多个虚拟变量,并且可以在glm模型摘要中找到它们以及相关的系数(例如,genderM) 如果不是代替R以此方式分解因子,而是将因子编码为一系列数字0/1变量(例如,genderM(1表示M,0表示F),genderF(1表示F,0表示0)。 M),然后将这些变量用作glm公式中的数字变量,系数结果会有所不同吗? 基本上,问题是:在使用因子变量和数值变量时,R是否使用不同的系数计算? 后续问题(可能由上述方法回答):除了让R创建虚拟变量的效率高之外,将因子重新编码为一系列数字0,1变量并在模型中使用这些变量是否还有其他问题?

1
对于模型平均GLM,我们是否将链接或响应规模上的预测平均?
要计算GLM响应规模上模型平均的预测,这是“正确的”,为什么? 在链接规模上计算模型平均预测,然后反变换为响应规模,或者 将预测反向转换为响应尺度,然后计算模型平均值 如果模型是GLM,则预测接近但不相等。不同的R包为这两者提供了选项(具有不同的默认值)。几位同事大声疾呼:#1错误是因为“每个人都#2”。我的直觉说#1是“正确的”,因为它使所有线性数学保持线性(#2对不在线性范围内的事物进行平均)。一个简单的仿真发现,#2的MSE比(#1)小(非常!)。如果#2是正确的,那是什么原因?而且,如果#2是正确的,为什么我的原因(保持线性数学线性)的推理能力很差? 编辑1:在GLM中计算超出另一个因素水平的边际均值与我在上面提出的问题类似。Russell Lenth使用#1(在emmeans软件包中)的“时间”(他的话)来计算GLM模型的边际均值,他的论点与我的直觉相似。 编辑2:我使用模型平均来指代模型选择的替代方法,其中将预测(或系数)估计为“最佳”嵌套模型的全部或子集的加权平均值(请参见下面的参考资料和R包) 。 鉴于嵌套模型,其中为个别的线性预测(在链路空间)为模型,和为模型的重量,使用#1的上方(平均链路上的模型的平均预测规模,然后反向转换为响应规模)是:MMMηmiηim\eta_i^miiimmmwmwmw_mmmm Y^i=g−1(∑m=1Mwmηmi)Y^i=g−1(∑m=1Mwmηim)\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big) 并且使用上述#2进行模型平均的预测(对所有预测进行反变换,然后在响应尺度上取平均值)是:MMM Y^i=∑m=1Mwmg−1(ηmi)Y^i=∑m=1Mwmg−1(ηim)\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m}) 模型平均的一些贝叶斯和惯常方法是: Hoeting,JA,Madigan,D.,Raftery,AE和Volinsky,CT,1999。贝叶斯模型平均:教程。统计科学,第382-401页。 Burnham,KP和Anderson,DR,2003年。模型选择和多模型推断:一种实用的信息理论方法。施普林格科学与商业媒体。 汉森,比利时,2007年。最小二乘模型平均。计量经济学,75(4),1175-1189页。 Claeskens,G。和Hjort,NL,2008年。模型选择和模型平均。剑桥图书。 R软件包包括BMA,MuMIn,BAS和AICcmodavg。(注意:这不是更普遍的模型平均智慧的问题。)

2
GLM和GAM中的样条
仅在GAM模型中提供样条而不在GLM模型中提供样条是错误的吗?我前不久听到了这个消息,想知道这是否只是一个误解,或有什么道理。这是一个例子:

2
使用lm进行2样本比例测试
我一直在使用线性模型执行2样本比例测试,但是已经意识到这可能并不完全正确。看来,使用具有二项式族+身份链接的广义线性模型可以准确给出未汇集的2样本比例测试结果。但是,使用线性模型(或带有高斯族的glm)得出的结果略有不同。我认为这可能是由于R如何解决二项式和高斯族的glm,但是还有其他原因吗? ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) set.seed(12345) ## set up dataframe ------------------------- n_A <- 5000 n_B <- 5000 outcome <- rbinom( n = n_A + n_B, …

2
使用行增强的Ridge惩罚GLM?
我已经读过可以通过简单地将数据行添加到原始数据矩阵中来实现岭回归,其中每行使用0表示因变量,而平方根或使用0表示自变量。然后为每个自变量添加额外的一行。kkk 我想知道是否有可能针对所有情况(包括逻辑回归或其他GLM)得出证明。

1
带有偏移的Poisson随机效应模型中的超分散和建模替代方案
使用主题内实验对来自实验研究的计数数据进行建模时,我遇到了许多实际问题。我简要描述了实验,数据以及到目前为止所做的事情,然后提出了我的问题。 依次向受访者展示了四部不同的电影。在每部电影之后,我们进行了一次采访,我们对RQ感兴趣的某些语句(预测计数变量)的出现次数进行了计数。我们还记录了可​​能出现的最大次数(编码单位;偏移量变量)。另外,电影的几个特征以连续的比例进行了测量,其中一个具有因果关系,即电影特征对陈述数量的影响的因果假设,而其他则为控制(预测变量)。 到目前为止采用的建模策略如下: 估计一个随机效应泊松模型,其中因果变量用作协变量,其他变量用作控制协变量。该模型的偏移量等于“ log(单位)”(编码单位)。跨对象产生随机效果(特定于电影的计数嵌套在对象中)。我们发现因果假设得到了确认(因果变量的系数)。在估算中,我们在R中使用了lme4包,特别是功能glmer。 现在我有以下问题。泊松回归中的一个常见问题是过度分散。我知道可以通过使用负二项式回归并评估其色散参数是否可以改善简单泊松模型的模型拟合性来进行测试。但是,我不知道如何在随机效果的情况下这样做。 在我的情况下,我应该如何测试过度分散?我在简单的泊松/负二项式回归(无随机效应)中测试了超分散,我知道该如何拟合。该测试表明存在过度分散。但是,由于这些模型未考虑聚类,因此我认为此测试不正确。此外,我不确定偏移量在过度分散测试中的作用。 是否存在负二项式随机效应回归模型之类的东西,该如何在R中拟合呢? 您是否对我应该尝试使用数据的替代模型有任何建议,即考虑重复测量结构,计数变量和暴露(编码单位)?

1
R中具有回归样条的Logistic回归
我一直在根据英国颅脑损伤国家创伤数据库的回顾性数据开发逻辑回归模型。关键结果是30天死亡率(称为“生存”度量)。在以前的研究中,已公开证据表明对结果有重大影响的其他措施包括: Year - Year of procedure = 1994-2013 Age - Age of patient = 16.0-101.5 ISS - Injury Severity Score = 0-75 Sex - Gender of patient = Male or Female inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
在广义线性模型中检查残差的正态性
本文使用广义线性模型(二项式和负二项式误差分布)来分析数据。但是,在方法的统计分析部分中,有以下语句: ...然后通过使用Logistic回归模型对状态数据进行建模,并使用广义线性模型(GLM)对觅食时间数据进行建模。使用具有对数链接函数的负二项式分布来对觅食时间数据进行建模(Welsh等人,1996),并通过检验残差来验证模型的适当性(McCullagh&Nelder 1989)。Shapiro–Wilk或Kolmogorov–Smirnov检验用于根据样本量检验正态性;在分析之前,对数据进行对数转换,以符合正态性。 如果他们假设二项式和负二项式误差分布,那么他们肯定不应该检查残差的正态性吗?

1
多重共线性和样条回归是否存在问题?
当使用自然的(即受限制的)三次样条曲线时,创建的基函数是高度共线性的,当在回归中使用时,似乎会产生非常高的VIF(方差膨胀因子)统计数据,表示多重共线性。当出于预测目的考虑模型的情况时,这是一个问题吗?由于样条线构造的性质,似乎总是这样。 这是R中的示例: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.