Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)


2
为什么GLM与带有转换变量的LM不同
如本课程讲义(第1页)中所述,线性模型可以用以下形式编写: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中是响应变量, 是第说明变量。yyyxixix_{i}ithithi^{th} 通常以满足测试假设为目标,可以转换响应变量。例如,我们在每个上应用log函数。转换响应变量并不等同于执行GLM。yiyiy_i 可以采用以下形式编写GLM(再次从课程讲义中(第3页)) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, 其中仅仅是另一个符号Ÿ当我从第2页,课程讲义理解。g()称为链接函数。uuuyyyg()g()g() 在课程中,我不太了解GLM和带有转换后的变量的LM之间的区别。你能帮我吗?

1
GLM中的对数似然性是否可以保证收敛到全局最大值?
我的问题是: 是否可以保证广义线性模型(GLM)收敛到全局最大值?如果是这样,为什么? 此外,链接函数对确保凸性有哪些约束? 我对GLM的理解是它们最大化了高度非线性的似然函数。因此,我可以想象有几个局部最大值,您收敛到的参数集取决于优化算法的初始条件。但是,在进行了一些研究之后,我没有找到一个单一的来源来表明存在多个局部最大值。此外,我对优化技术不是很熟悉,但是我知道Newton-Raphson方法和IRLS算法非常容易出现局部最大值。 请尽可能在直观和数学的基础上进行解释! 编辑:dksahuji回答了我的原始问题,但我想在上面添加后续问题[ 2 ]。(“链接函数上有什么约束可确保凸性?”)


3
您将如何向没有统计背景的人们解释广义线性模型?
我总是很难向没有统计背景的听众解释统计技术。如果我想向此类受众解释什么是GLM(不抛出统计术语),那么最佳或最有效的方法是什么? 我通常用三个部分来解释GLM:(1)作为响应变量的随机分量,(2)作为线性预测变量的系统分量,以及(3)作为连接(1)的“关键”的链接函数(2)。然后,我将给出线性或逻辑回归的示例,并说明如何根据响应变量选择链接函数。因此,它充当连接两个组件的关键。

2
GLM中的过度分散测试实际上是否“有用”?
每当我们使用限制响应变量方差的模型时,就会在GLM中出现“过度分散”现象,并且数据显示的方差大于模型限制所允许的方差。在使用Poisson GLM对计数数据进行建模时,通常会发生这种情况,并且可以通过众所周知的测试进行诊断。如果测试表明存在统计学上显着的过度分散迹象,那么我们通常通过使用更广泛的分布族来概括模型,该分布族将方差参数从原始模型下出现的约束中解脱出来。对于Poisson GLM,通常将其推广为负二项式或准Poisson GLM。 这种情况怀有明显的异议。为什么要从Poisson GLM开始呢?可以直接从较宽的分布形式开始,后者具有(相对)自由的方差参数,并允许方差参数适合数据,而完全忽略了过度分散测试。在其他情况下,当我们进行数据分析时,我们几乎总是使用至少允许前两个时刻自由的分布形式,那么为什么在这里例外? 我的问题:是否有充分的理由从确定方差的分布(例如泊松分布)开始,然后执行过度分散测试?与完全跳过本练习并直接转到更通用的模型(例如,负二项式,准泊松等)相比,此过程如何?换句话说,为什么不总是使用带有自由方差参数的分布呢?

3
使用glm()代替简单的卡方检验
我有兴趣更改glm()R中使用的原假设。 例如: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) 检验的假设p = 0.5p=0.5p = 0.5。如果我想将null更改为ppp =某个任意值,该glm()怎么办? 我知道也可以使用prop.test()和来完成此操作chisq.test(),但是我想探讨一下使用glm()来测试与分类数据有关的所有假设的想法。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
指定协方差结构:利弊
在GLM中指定协方差结构有什么好处(而不是将协方差矩阵中的所有非对角线条目都视为零)?除了反映人们对数据的了解之外,它还能 提高贴合度? 提高对保留数据的预测准确性? 让我们估计协方差的程度? 施加协方差结构的成本是多少?可以 为估算算法增加计算复杂性? 增加估计参数的数量,还增加AIC,BIC,DIC? 是否有可能凭经验确定正确的协方差结构,或者这是否取决于您对数据生成过程的了解? 我没有提到任何成本/收益吗?

3
零成簇的非负数据模型(Tweedie GLM,零膨胀GLM等)是否可以预测精确的零?
当参数ppp(均值-方差关系的指数)在1到2之间。 类似地,零膨胀(无论是连续的还是离散的)模型可以具有大量的零。 我无法理解为什么当我使用这些模型进行预测或计算拟合值时,所有预测值都不为零。 这些模型可以实际预测确切的零吗? 例如 library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

3
何时使用GAM与GLM
我意识到这可能是一个潜在的广泛问题,但我想知道是否存在可概括的假设,表明使用GAM(广义附加模型)而不是GLM(广义线性模型)? 最近有人告诉我,仅当我认为数据结构是“可加的”时才应使用GAM,即我期望x的加法能够预测y。另一个人指出,GAM与GLM进行的回归分析类型不同,当可以假定线性时,首选GLM。 过去,我一直使用GAM来获取生态数据,例如: 连续时间序列 当数据不具有线性形状时 我有多个x来预测y,以为我认为我可以使用“表面曲线”和统计检验来可视化某些非线性相互作用 对于GAM与GLM的不同之处,我显然不了解。我认为这是一个有效的统计检验,(而且我看到GAM的使用有所增加,至少在生态期刊中如此),但是我需要比其他回归分析更好地了解何时使用了GAM。

2
为什么线性回归对残差有假设,而广义线性模型对响应有假设?
为什么线性回归和广义模型的假设不一致? 在线性回归中,我们假设残差来自高斯 在其他回归(逻辑回归,毒物回归)中,我们假设响应来自某种分布(二项式,泊松等)。 为什么有时会假设剩余而其他时间会在响应时?是因为我们要导出不同的属性? 编辑:我认为mark999的显示两种形式是相等的。但是,我对iid还有其他疑问: 我的另一个问题 是,逻辑回归是否有iid假设?显示广义线性模型没有iid假设(独立但不相同) 对于线性回归,是否真的成立,如果我们对残差进行假设,我们将有iid,但是如果对响应进行假设,我们将拥有独立但不相同的样本(具有不同不同高斯样本)?μμ\mu

1
仅观察一次的随机效应将如何影响广义线性混合模型?
我有一个数据集,在该数据集中,我想用作随机效果的变量在某些级别上只有一个观察值。基于对先前问题的回答,我认为原则上可以。 我可以将混合模型与只有1个观察值的对象拟合吗? 随机截距模型-每个科目一次测量 但是,在第二个链接中,第一个答案指出: “ ...假设您没有使用广义线性混合模型GLMM,在这种情况下,过度分散的问题将发挥作用” 我正在考虑使用GLMM,但我真的不了解单次观察的随机效应水平将如何影响模型。 这是我要拟合的模型之一的示例。我正在研究鸟类,我想模拟人口和季节对迁徙期间停留次数的影响。我想将个人用作随机效应,因为对于某些个人,我拥有长达5年的数据。 library(dplyr) library(lme4) pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", …

2
GLM:验证分发和链接功能的选择
我有一个采用高斯分布和对数链接函数的广义线性模型。拟合模型后,我检查残差:QQ图,残差与预测值,残差的直方图(确认需要格外小心)。一切看起来都很好。(对我而言)这似乎表明,选择高斯分布非常合理。或者至少,残差与我在模型中使用的分布一致。 问题1:声明它能验证我的发行选择是否太过分了? 我选择了一个日志链接函数,因为我的响应变量始终为正,但是我想要某种确认,它是一个不错的选择。 问题2:是否有任何测试可以支持我对链接功能的选择,例如检查残差以选择分布?(对我来说,选择链接功能似乎有些武断,因为我可以找到的唯一指导是非常模糊和动摇的,大概是出于充分的理由。)

6
在活动中花费的时间作为自变量
我想将花费在做某事上的时间(例如,数周的母乳喂养)作为线性模型中的自变量。但是,某些观察结果根本不参与该行为。将它们编码为0并不是真正正确的方法,因为0在质量上与大于0的任何值都存在差异(即,不进行母乳喂养的女性可能与做过母乳的女性(甚至是长期不做母乳的女性)有很大差异)。我能提供的最好的方法是对假人进行分类,以对花费的时间进行分类,但这浪费了宝贵的信息。零膨胀的Poisson之类的东西似乎也有可能,但是我无法确切地弄清楚这种情况下的情况。有没有人有什么建议?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.