Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

1
拟合二项响应的异方差广义线性模型
我从以下实验设计中获得了数据:我的观察结果是对K相应治疗次数()中成功次数()的计数,对N两组分别由I个体组成的两组进行了测量,这些结果来自T治疗,其中每个这样的因子组合中都有R重复项。因此,共我有2 * I * T * R ķ的和对应Ñ的。 数据来自生物学。每个人都是一个基因,我通过它测量两种替代形式的表达水平(由于一种称为替代剪接的现象)。因此,K是其中一种形式的表达水平,而N是这两种形式的表达水平的总和。在一个单一的表达拷贝的两种形式之间的选择被假定为一个伯努利试验,因此ķ出Ñ副本遵循二项式。每个组由约20个不同的基因组成,并且每个组中的基因具有某些共同的功能,这在两组之间是不同的。对于每组中的每个基因,我从三个不同的组织(治疗)中分别进行了约30次这样的测量。我想估计组和治疗对K / N方差的影响。 已知基因表达过度分散,因此在下面的代码中使用负二项式。 例如,R模拟数据的代码: library(MASS) set.seed(1) I = 20 # individuals in each group G = 2 # groups T = 3 # treatments R = 30 # replicates of each individual, in each group, in each treatment groups = letters[1:G] …

5
大数据的逻辑回归
我有大约5000个功能的数据集。对于这些数据,我首先使用卡方检验进行特征选择。之后,我得到了大约1500个变量,这些变量与响应变量之间显示出显着的关系。 现在,我需要对此进行逻辑回归。我正在为R使用glmulti软件包(glmulti软件包为vlm提供了有效的子集选择),但一次只能使用30个功能,否则其性能会下降,因为数据集中的行数约为20000。 是否有其他方法或技术可以解决上述问题?如果我采用上述方法,将需要太多时间来拟合模型。

2
广义线性模型的参数估计
默认情况下,当我们glm在R中使用函数时,它使用迭代加权最小二乘(IWLS)方法来找到参数的最大似然估计。现在我有两个问题。 IWLS估计是否可以保证似然函数的全局最大值?根据本演示文稿的最后一张幻灯片,我认为事实并非如此!我只是想确保这一点。 我们可以说上述问题1的原因是因为几乎所有数值优化方法都可能停留在局部最大值而不是全局最大值吗?

2
为什么负二项式回归的Pearson残差比Poisson回归的残差小?
我有这些数据: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) 我进行了泊松回归 poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") 负二项式回归: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 然后我为泊松回归计算色散统计量: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 负二项式回归: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 在不使用方程式的情况下,谁能解释为什么负二项式回归的色散统计量远小于泊松回归的色散统计量?

2
广义线性模型的假设
在“应用回归的R伴侣”的第232页上,Fox和Weisberg注意 只有高斯族具有恒定的方差,在所有其他GLM中,处y的条件方差取决于XX\bf{x}μ (x )μ(X)\mu(x) 先前,他们注意到泊松的条件方差是,而二项式的条件方差是。μμ\muμ (1 - μ )ñμ(1个-μ)ñ\frac{\mu(1-\mu)}{N} 对于高斯人来说,这是一个熟悉且经常检查的假设(均方差)。同样,我经常看到讨论的Poisson条件方差是Poisson回归的假设,以及对违反Poisson的情况(例如负二项式,零膨胀等)的补救措施。但是,我从未将讨论的二项式的条件方差视为逻辑回归中的假设。有点谷歌搜索没有发现它。 我在这里想念什么? 在@whuber的评论之后进行编辑: 根据建议,我正在浏览Hosmer&Lemeshow。这很有趣,我认为这表明了为什么我(可能还有其他人)感到困惑。例如,单词“假设”不在书的索引中。另外,我们有这个(第175页) 在逻辑回归中,我们必须主要依靠视觉评估,因为仅在某些有限的条件下才知道模型适合的假设下的诊断分布 他们显示了很多图,但专注于各种残差的散点图与估计的概率。这些图(即使是一个好的模型,在OLS回归中也没有类似图的“破旧”模式特征,因此很难判断。此外,它们与分位数图没有任何相似之处。 在R中,plot.lm提供了一套漂亮的默认绘图来评估模型;我不知道逻辑回归的等效项,尽管它可能在某些软件包中。这可能是因为每种类型的模型都需要不同的图。SAS确实在PROC LOGISTIC中提供了一些地块。 当然,这似乎是一个潜在的混乱领域!

1
Logistic回归中的巨大系数-这意味着什么,该怎么做?
我在逻辑回归中获得了巨大的系数,请参见的系数krajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

1
线性和逻辑回归的误差分布
对于连续数据,线性回归假设误差项分布为N(0,)Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1)我们是否假设Var(Y | x)同样是〜N(0,)?σ2σ2\sigma^2 2)Logistic回归中的这种误差分布是什么?当数据为每种情况下1条记录的形式,其中“ Y”为1或0时,误差项为分布的Bernoulli(即方差为p(1-p)),并且数据的形式为#从#次试验中获得成功,是否假设是二项式的(即方差为np(1-p)),其中p是Y为1的概率?

1
如何从R零膨胀计数数据回归中获得标准误差?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 以下代码 PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 产生3列data.frame--PredictNew,拟合值,标准误差和残差标度项。 完美...但是使用的模型配备zeroinfl {pscl}: PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 要么 PredictNew <- predict (zeroinfl.fit, newdata = Predict, …

2
用随机斜率和截距拟合Poisson GLM混合模型
我目前正在研究一系列Poisson时间序列模型,试图估计计数获取方式变化的影响(从一种诊断测试转换为另一种诊断测试),同时控制一段时间内的其他趋势(例如疾病的发生率)。我有许多不同站点的数据。 虽然我也一直在修改GAM,但我已经将一系列具有时间趋势的基本GLM进行了拟合,然后汇总结果。在SAS中,此代码看起来像这样: PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; 或在R: glm(counts ~ dependent_variable + time + time*time, family="poisson") 然后进行估算,并将其汇总到各个站点中。也有人建议我尝试使用具有随机斜率的Poisson混合模型,并针对每个站点进行拦截,而不是合并。因此,从本质上讲,您将具有固定的dependent_variable效果,然后是截距和时间(或者理想情况下是时间和时间^ 2的随机效果,尽管我知道这有点毛茸茸)。 我的问题是我不知道如何适合这些模型之一,而且似乎每个人的文档突然变得很不透明,而混合模型似乎是这样。任何人都有一个简单的解释(或代码),以了解如何适应我要适应的东西以及要寻找的东西?

1
逻辑回归:分组变量和非分组变量(使用R)
我正在阅读A. Agresti(2007),《分类数据分析简介》,第二版。版本,并且不确定我是否正确理解本段(第106页,4.2.1)(尽管应该很容易): 在上一章有关打ing和心脏病的表3.1中,每天有254名受试者报告打呼night,其中30名患有心脏病。如果数据文件具有分组的二进制数据,则数据文件中的一行报告的样本量为254,其中30种是心脏病病例。如果数据文件具有未分组的二进制数据,则数据文件中的每一行都引用一个单独的主题,因此30行包含1的心脏病,而224行包含0的心脏病。这两种数据文件的ML估计值和SE值都相同。 转换一组未分组的数据(1个相关数据,1个独立数据)将花费更多的时间来包含所有信息! 在以下示例中,创建了一个(不切实际的!)简单数据集,并构建了逻辑回归模型。 分组数据的实际外观如何(变量标签?)?如何使用分组数据构建相同的模型? > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > mod1=glm(y~x, data=dat, family=binomial())

1
用偏移量预测GLM泊松
我知道这可能是一个基本问题...但是我似乎找不到答案。 我正在为Poisson系列安装GLM,然后尝试查看预测,但是似乎确实考虑了偏移量: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") 我得到的情况不是费率... 我也尝试过 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 结果相同。但是,当我使用mgcv从GAM进行预测时,这些预测会考虑偏移量(我得到比率)。 我想念什么吗?

1
GLM和GEE有什么区别?
具有二进制响应变量(包括主题和时间作为协变量)的GLM模型(逻辑回归)与考虑了多个时间点之间的相关性的类似GEE模型之间有什么区别? 我的GLM看起来像: Y(binary) ~ A + B1X1(subject id) + B2X2(time) + B3X3(interesting continuous covariate) 具有logit链接功能。 我正在寻找一个简单的解释(针对社会科学家),以解释两个模型中如何以及为什么对时间进行区别对待,以及解释的含义。

1
泊松/对数线性模型的似然比检验是否需要调整零计数?
如果列联表中的数字为0,并且我们正在对嵌套的泊松/对数线性模型(使用R glm函数)进行似然比检验,那么在拟合glm模型之前是否需要调整数据(例如,将1/2加到所有计数)?显然,如果不进行一些调整就无法估计某些参数,但是调整/缺少调整对LR测试有何影响?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.