Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

3
负二项式GLM与计数数据的对数转换:I型错误率增加
你们中有些人可能已经读过这篇不错的论文: O'Hara RB,Kotze DJ(2010)不要对计数数据进行对数转换。《生态与进化方法》 1:18–122。克利克。 在我的研究领域(生态毒理学)中,我们正在处理重复性较差的实验,并且GLM并未得到广泛使用。因此,我进行了类似于O'Hara&Kotze(2010)的模拟,但是模拟了生态毒理学数据。 功率模拟: 我模拟了一个有一个对照组()和5个治疗组()的阶乘设计的数据。处理1中的丰度与对照()相同,处理2-5中的丰度是对照中的丰度的一半()。对于模拟,我改变了样本大小(3、6、9、12)和对照组的丰度(2、4、8,...,1024)。从具有固定色散参数()的负二项式分布中提取丰度。使用负二项式GLM和高斯GLM +对数转换的数据生成并分析了100个数据集。μ 1 - 5 μ 1 = μ Ç μ 2 - 5 = 0.5 μ C ^ θ = 3.91μCμc\mu_cμ1 - 5μ1−5\mu_{1-5}μ1个= μCμ1个=μC\mu_1 = \mu_cμ2 - 5= 0.5 μCμ2-5=0.5μC\mu_{2-5} = 0.5 \mu_c角= 3.91θ=3.91\theta = 3.91 结果符合预期:GLM具有更大的功效,尤其是在采样的动物不多的情况下。 代码在这里。 类型I错误: 接下来,我看了一眼错误。如上所述进行模拟,但是所有组具有相同的丰度()。μC= μ1 - …

9
参考要求:广义线性模型
我正在寻找有关广义线性模型的入门级到中级水平的书。理想情况下,除了模型背后的理论外,我希望它包括R或另一种编程语言的应用程序和示例-我听说SAS也是一种流行的选择。我打算自己研究它,因此如果它为自己的练习提供了答案,将会有所帮助。 您可以假设我参加了为期一年的传统微积分和概率论课程。我还熟悉回归分析的基础。

5
统计人员是否假设不能为植物浇水,还是我使用错误的搜索词进行曲线回归?
几乎所有我读到线性回归和GLM归结为:y=f(x,β)y=f(x,β)y = f(x,\beta),其中是一个非增或非递减的函数和是你估计参数并检验假设。有数十种链接函数以及和转换,以使成为的线性函数f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta)。 现在,如果删除的非递增/非递减要求f(x,β)f(x,β)f(x,\beta),则我仅知道两个用于拟合参数化线性化模型的选择:trig函数和多项式。两者都会在每个预测的yyy与整个集合之间造成人为的依赖性XXX,因此使其非常不稳健,除非事先有理由认为您的数据实际上是由循环或多项式过程生成的。 这不是某种神秘的边缘情况。这是水与农作物产量之间的实际常识关系(一旦田间水深足够,农作物产量将开始减少),或者是早餐时消耗的卡路里与数学测验表现之间的热量,或工厂工人的数量之间的常识关系。以及它们产生的小部件数量...简而言之,几乎在任何使用线性模型的现实生活中,数据覆盖的范围都足够大,您可以避免收益递减成负收益。 我尝试查找“凹”,“凸”,“曲线”,“非单调”,“浴缸”等术语,但我忘记了其他几个。很少有相关问题,甚至更少可用的答案。因此,实际上,如果您具有以下数据(R代码,y是连续变量x和离散变量组的函数): updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); 您可能首先尝试进行Box-Cox转换,看看它是否具有机械意义,否则,您可能会使用具有逻辑或渐近链接函数的非线性最小二乘模型进行拟合。 因此,当您发现完整的数据集看起来像这样时,为什么要完全放弃参数模型而又回到样条线这样的黑盒方法... plot(y~x,updown,col=group); 我的问题是: 为了找到代表此类功能关系的链接功能,我应该搜索哪些术语? 要么 为了教自己如何设计链接函数到此类函数关系或扩展当前仅用于单调响应的现有函数,我应该阅读和/或搜索什么? 要么 哎呀,甚至什么StackExchange标签最适合此类问题!

4
在二项式模型中使用偏移量来说明患者数量的增加
我提出了两个相关问题。我有一个数据框,该数据框在一列中包含患者人数(范围为10-17位患者),分别显示当天是否发生事件的0和1。我使用的是二项式模型来将事件的概率回归到患者人数上。但是,我想适应这样一个事实:当有更多的病人时,不可避免地会发生更多的事件,因为那天病房的病人总时间更长。 所以我正在使用像这样的偏移二项式模型(R代码): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 我的问题是: 可以完全相同地预测变量和偏移量吗?我想部分排除进补概率的增加,从本质上看是否还有剩余。这对我来说很有意义,但是如果我弄错了,我会有些谨慎。 偏移量指定正确吗?我知道在泊松模型中会读到 offset=log(Numbers) 我不知道这里是否有等效项,而且我似乎找不到与Google相关的二项式偏移量(主要问题是我不断得到负二项式,这当然是不好的)。

5
使用lmer进行预测
您好,我有两个问题听起来像是我从未使用过的多级/混合模型的自然候选者。我希望尝试做一个更简单的介绍,如下所示:数据看起来像表单的许多行 x y innergroup outergroup 其中x是要对其进行回归的数值协变量(另一个数值变量),每个y属于一个内部组,每个内部组嵌套在一个外部组中(即,给定内部组中的所有y都属于同一个外部组) 。不幸的是,内部群有很多级别(成千上万),每个级别对y的观察都相对较少,因此我认为这种模型可能是合适的。我的问题是 如何编写这种多级公式? 一旦lmer拟合模型,如何从中进行预测?我已经找到了一些更简单的玩具示例,但是没有找到预报()函数。与这种技术的预测相比,大多数人似乎对推理更感兴趣。我有几百万行,所以计算可能是个问题,但是我总是可以适当地减少它。 我将不需要一段时间,但是我不妨开始考虑并尝试使用它。我有和以前相似的数据,但没有x,并且y现在是形式的二项式变量。y也表现出很多过度分散,即使在内部群体中也是如此。n中的大多数不超过2或3(或更小),因此为了得出每个y i的成功率的估算值,我一直在使用β-二项式收缩率估算器(α + k i)/(α + β + n i),在哪里(n,n−k)(n,n−k)(n,n-k)nnnyiyiy_i(α+ki)/(α+β+ni)(α+ki)/(α+β+ni)(\alpha+k_i)/(\alpha+\beta+n_i)通过MLE对每个内部组分别估计 α和 β。这已经足够了,但是数据稀疏仍然困扰着我,所以我想使用所有可用的数据。从一个角度看,这个问题比较容易,因为没有协变量,但是从另一个角度看,二项式性质使它变得更加困难。有人有高(或低!)级指导吗?αα\alphaββ\beta

2
为什么beta回归不能在响应变量中正确处理0和1?
通常建议使用beta回归(即具有beta分布的GLM,通常是logit链接函数)来处理响应aka因变量,其取值介于0和1之间,例如分数,比率或概率:结果的回归(比率或分数)在0和1之间。 但是,总是声称一旦响应变量至少等于0或1,就不能使用beta回归。如果是这样,则需要使用零/一膨胀的beta模型,或者对响应进行某种转换,等等。:Beta回归比例数据,包括1和0。 我的问题是:β分布的哪个属性阻止β回归处理精确的0和1,为什么? 我猜这是和不支持beta发行版的原因。但是对于所有形状参数和,零和一个都支持beta分布,只有较小的形状参数的分布在一侧或两侧达到无穷大。也许样本数据使得提供最佳拟合的和都将大于。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 这是否意味着在某些情况下,即使使用零/ 一,实际上也可以使用beta回归吗? 当然,即使0和1支持beta分布,准确观察0或1的概率也为零。但是观察其他给定可计数值集合的可能性也是如此,所以这不是问题吗?(参见@Glen_b的评论)。 \hskip{8em} 在beta回归的上下文中,beta分布的参数设置不同,但是对于,对于所有,仍应在进行明确定义。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

3
R中的glm函数使用哪种优化算法?
可以使用以下代码在R中执行logit回归: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 看来优化算法已经收敛-存在有关费舍尔评分算法的步数的信息: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

2
如何在R中创建具有多个因变量的广义线性模型?
我有六个因变量(计数数据)和几个自变量,我看到在MMR中,脚本如下所示: my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) 但是,由于我的数据是计数,因此我想使用广义线性模型,并尝试了以下方法: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") 并显示此错误消息: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : (subscript) logical subscript …



5
如何在R中的glm族参数中指定对数正态分布?
一个简单的问题:如何在R中的GLM系列参数中指定对数正态分布?我找不到如何实现的目标。为什么对数正态(或指数)不是family参数中的选项? 我读到R存档中的某个地方,只需指定GLM中设置为高斯的族的对数链接,即可指定对数正态。但是,这是无稽之谈,因为这将适合非线性回归并且R开始要求起始值。 有人知道如何为GLM设置对数正态(或指数)分布吗?

3
如何决定使用哪个glm家庭?
我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示: 我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。

2
如何处理R中的错误,例如“系数:14由于奇异而未定义”?
当执行GLM时,在方差分析输出中出现“由于奇异而未定义”错误,如何抵消这种错误的发生? 有人认为这是由于协变量之间的共线性或数据集中不存在其中一个级别(请参阅:在lm中解释“由于奇异而未定义”) 如果我想看看这“特殊治疗”驱动模式,我有4个级别的待遇:Treat 1,Treat 2,Treat 3和Treat 4,这是记录在我的电子表格是:当Treat 1是1,其余都是零,如果Treat 2是1,其余都是零,等,我该怎么办?

1
逻辑回归中的Pearson VS Deviance残差
我知道标准化的Pearson残差是以传统的概率方式获得的: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} 和偏差残差通过更统计的方式获得(每个点对可能性的贡献): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} 其中 = 1,如果 = 1和 = -1,如果 = 0。sisis_iyiyiy_isisis_iyiyiy_i 您能直观地向我解释如何解释偏差残差的公式吗? 此外,如果我要选择一个,那一个更合适,为什么呢? 顺便说一句,一些参考文献声称我们基于以下项得出偏差残差 −12ri2−12ri2-\frac{1}{2}{r_i}^2 其中是上面提到的。ririr_i

4
确定计数数据合适模型的策略
决定对计数数据使用哪种模型的合适策略是什么?我已经计算了需要建模为多级模型的数据,并建议我(在此站点上)做到这一点的最佳方法是通过错误或MCMCglmm。但是,我仍在尝试了解贝叶斯统计,并且我认为我应该首先尝试将我的数据拟合为广义线性模型,而忽略数据的嵌套结构(只是这样我才能对预期的结果有一个模糊的想法)。 大约70%的数据为0,方差与平均值的比率为33。因此,数据过于分散。 在尝试了许多不同的选择(包括泊松,负二项式,拟和零膨胀模型)之后,我发现结果的一致性非常差(从所有重要变量变为没有重要变量)。 我该如何基于0通货膨胀和过度分散做出明智的决定,以选择哪种类型的模型?例如,我怎么能推断准泊松比负二项式更合适(反之亦然),又怎会知道使用其中一个已经充分(或没有)处理了多余的零?同样,如果使用零膨胀模型,我如何评估不再有过度分散?还是应该在零膨胀的泊松和零膨胀的负二项式之间做出选择?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.