Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

1
何时将Poisson,几何和负二项式GLM用于计数数据?
在GLM框架内(8个GLM分布中只有3个用于计数数据),我试图为自己布局适合何时使用哪种回归类型(几何,泊松,负二项式)和计数数据。我已阅读了有关负二项式和泊松分布的文章。 何时将Poisson,几何和负二项式GLM用于计数数据? 到目前为止,我有以下逻辑:它计数数据吗?如果是,均值和方差不相等吗?如果是,则为负二项式回归。如果否,则泊松回归。零通胀吗?如果是,则零泊松或零负二项式。 问题1似乎没有明确指示何时使用。有什么可以告知该决定的信息吗?据我了解,一旦您切换到ZIP,平均方差等于假设就可以放宽了,因此它再次与NB非常相似。 问题2几何族适用于此?在决定是否在回归中使用几何族时,我应该问数据什么样的问题? 问题3我看到人们一直在交换负二项式和泊松分布,而不是几何形状,因此我猜想何时使用它会有明显不同。如果是这样,那是什么? PS:如果人们想评论/调整它以便进行讨论,我已经制作了一个(根据评论可能过于简化)图表(可编辑)。

2
如何使用family = Gamma解释GLM中的参数
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我对带有伽玛分布因变量的GLM的参数解释有疑问。这是R通过日志链接返回给我的GLM的结果: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value …


1
为什么GLM中的准泊松不被视为负二项式的特例?
我正在尝试将广义线性模型拟合到可能过度分散的某些计数数据集。此处适用的两个规范分布是泊松和负二项式(Negbin),其EV和方差μμ\mu VarP=μVarP=μVar_P = \mu VarNB=μ+μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} 可以分别使用glm(..,family=poisson)和将其安装在R中glm.nb(...)。还有一个quasipoisson家庭,以我的理解,这是一个经过调整的泊松,具有相同的EV和方差 VarQP=ϕμVarQP=ϕμVar_{QP} = \phi\mu, 即落在Poisson和Negbin之间。准泊松族的主要问题是没有相应的可能性,因此没有许多非常有用的统计检验和拟合度量(AIC,LR等)。 如果比较QP和Negbin方差,可能会注意到可以通过来使它们相等。继续这种逻辑,您可以尝试将准泊松分布表示为Negbin的特例:ϕ=1+μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1}), 即,一个\ theta的Negbin与\ muθθ\theta线性相关。我试图通过根据上述公式生成一个随机的数字序列并将其拟合为来验证这种想法:μμ\muglm #fix parameters phi = 3 a = 1/50 b = 3 x = 1:100 #generating points according to an exp-linear curve #this way …

3
如何计算glm(R)的拟合优度
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 6年前。 我从运行glm函数得到以下结果。 我如何解释以下值: 零偏差 残余偏差 AIC 他们和健康的好处有关吗?我可以根据这些结果(例如R平方或其他任何度量)来计算拟合优度吗? Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept -1.305e-01 …

1
从贝叶斯网络到神经网络:如何将多元回归转换为多输出网络
我正在处理贝叶斯层次线性模型,这里是描述它的网络。 ÿYY代表超市中某产品的每日销售额(已观察)。 XXX是已知的回归矩阵,包括价格,促销,星期几,天气,假期。 1小号SS是每种产品的未知潜在库存水平,这会导致最多的问题,并且我认为是二进制变量的向量,每个产品一个,其中表示缺货,因此该产品不可用。 即使在理论上未知,我也通过HMM对每个产品进行了估算,因此可以将其视为X。我只是为了适当的形式主义而决定对它进行着色。1个11 ηη\eta是任何单个产品的混合效果参数,其中考虑的混合效果是产品价格,促销和缺货。 b 1 b 2ββ\beta是固定回归系数的向量,而和是混合效应系数的向量。一组代表品牌,另一组代表风味(这是一个例子,实际上我有很多组,但是为了清楚起见,这里我只报告两个)。b1个b1b_1b2b2b_2 Σ b 1 Σ b 2ΣηΣη\Sigma_{\eta},和是混合效果的超参数。Σb1个Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} 因为我有计数数据,所以可以说我将每个产品的销售额都视泊松分布在回归变量上的条件而定(即使对于某些产品,线性近似成立,而对于其他产品,零膨胀模型更好)。在这种情况下,我将有一个乘积(这仅适用于那些对贝叶斯模型本身感兴趣的人,如果您发现它不感兴趣或不琐碎,请跳至该问题:)):ÿYY Ση〜我w ^(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1个〜我w ^(α1个,γ1个)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) α 0,γ 0,α 1,γ 1,α 2,γ 2Σb2〜我w ^(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2),已知。α0,γ0,α1个,γ1个,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η〜ñ(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1个〜ñ(0,Σb1个)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2〜ñ(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) Σ ββ〜ñ(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta}),已知。ΣβΣβ\Sigma_{\beta} λ吨我Ĵ ķ= …

1
是否有逻辑上的解释说明为什么逻辑回归不适用于完美分离的情况?以及为什么添加正则化将解决此问题?
关于逻辑回归中的完美分离,我们有很多很好的讨论。例如,R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?和Logistic回归模型不收敛。 我个人仍然觉得这为什么会是一个问题以及为什么添加正则化可以解决这个问题并不直观。我制作了一些动画,并认为这会有所帮助。因此,请亲自发布他的问题并回答,以便与社区分享。

4
在beta回归中处理0.1值
我在[0,1]中有一些数据,希望通过beta回归进行分析。当然,需要做一些事情来容纳0,1值。我不喜欢修改数据以适合模型。我也不认为通货膨胀为零和1是个好主意,因为我认为在这种情况下,应将0视为很小的正值(但我不想确切地说出什么值是合适的。一个合理的选择我相信应该选择.001和.999这样的较小值,并使用beta的累积距离来拟合模型,因此对于观测值y_i,对数似然度LL_i应该为 if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) 我喜欢这个模型的地方在于,如果beta回归模型有效,那么该模型也是有效的,但是它消除了对极值的敏感性。但是,这似乎是一种自然的方法,我想知道为什么我在文献中找不到任何明显的参考文献。所以我的问题是不是修改数据,而不是修改模型。修改数据会使结果产生偏差(基于原始模型有效的假设),而通过对极值进行装仓来修改模型不会使结果产生偏差。 也许有一个我忽略的问题?

2
转换比例数据:arcsin平方根不足时
对于百分比/比例数据,是否有(更强的)替代arcsin平方根的变换?在我目前正在处理的数据集中,应用此转换后仍存在明显的异方差性,即残差与拟合值的关系图仍然是菱形。 编辑以回应评论:数据是实验参与者的投资决定,他们可能以10%的倍数投资捐赠基金的0-100%。我还使用序数逻辑回归分析了这些数据,但想了解有效的glm会产生什么。另外,我认为答案对将来的工作很有用,因为反正弦方根似乎被用作我领域的一种“千篇一律”的解决方案,而且我没有遇到任何采用的替代方法。

3
如何在GLM中解释拦截项?
我正在使用R,并且一直在使用具有二项式链接的GLM分析数据。 我想知道输出表中拦截的含义是什么。我的一个模型的截距明显不同,但是变量没有。这是什么意思? 什么是拦截。我不知道我是否只是在迷惑自己,而是在互联网上搜索,没有什么可说的,就是这样,注意它...还是不。 请帮助,一个非常沮丧的学生 glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** treatmentshiny_non-shiny 0.000 1.461 0.000 1.00000 (Dispersion parameter for binomial family …

1
R中的glm如何处理'NA'值
我有一个数据表T1,其中包含近一千个变量(V1)和大约2亿个数据点。数据稀疏,大多数条目均为NA。每个数据点都有唯一的ID和日期对,以区别于另一个。 我有另一个表T2,其中包含一组单独的变量(V2)。该表还具有ID和日期对,用于唯一标识T2中的条目。 我们怀疑T1中的数据可用于预测T2中的变量值。 为了证明这一点,我想在R中应用'glm'模型,并检查我们是否真的可以在T2中找到一些依赖于T1中变量的变量。 对于T2中的每个变量,我开始提取T1中具有相同ID和日期对的所有数据,这导致某些测试变量的数据点小得多,约50K。 我现在使用glm面临的问题如下。 在某些情况下,它向我显示错误“找不到适合”和警告“ glm.fit:算法未收敛”。我不确定为什么会显示它? 如何在glm中处理NA?是否先删除所有涉及“ NA”的记录,然后进行拟合? 首先删除所有NA,然后调用“ glm”是一个好策略吗?我担心这可能会大大减少数据点,因为它们中的大多数都是NA。 使用哪种方法来计算系数。我找不到任何讨论输出计算方式的网站,论文或书籍。 我测试了带有和不带有“ NA”的glm,并找到了不同的答案,这表明在拟合数据时要考虑NA: 范例1: > tmpData x1 x2 x3 Y 1 1 1 1 3 2 1 0 4 5 3 1 2 3 6 4 0 3 1 4 Call: glm(formula = as.formula(paste(dep, " ~ ", paste(xn, …

2
哪些诊断程序可以验证特定GLM系列的使用?
这似乎很基础,但是我总是在这一点上陷入困​​境…… 我处理的大多数数据都是非常规的,并且大多数分析都是基于GLM结构的。对于当前的分析,我有一个响应变量,即“步行速度”(米/分钟)。我很容易确定自己无法使用OLS,但是在确定哪个家庭(伽玛,威布尔等)合适的时候,我存在很大的不确定性! 我使用Stata并查看诸如残差和异方差,残差与拟合值之类的诊断信息。 我知道计数数据可以采用比率(例如发生率)的形式,并且使用了伽玛(类似于过度分散的离散负二项式模型),但是只是想用“吸烟枪”说是的,您就对了家庭。看看标准化残差与拟合值是唯一,最好的方法吗?我也想使用混合模型来说明数据中的某些层次结构,但首先需要弄清哪种家庭最能描述我的响应变量。 任何帮助表示赞赏。Stata语言特别感谢!

4
处理异方差的最佳方法?
我有一个线性模型的残差值随拟合值的函数关系图,其中异方差非常清楚。但是,我不确定现在应该如何进行,因为据我了解,这种异方差会使我的线性模型无效。(那正确吗?) 使用封装的rlm()功能使用健壮的线性拟合,MASS因为它显然对异方差具有健壮性。 由于我的系数的标准误差由于异方差性而错了,因此我可以调整标准误差以使其对异方差性很强吗?使用此处发布在堆栈溢出上的方法:具有异方差的回归校正的标准错误 哪种方法是解决我的问题的最佳方法?如果我使用解决方案2,那么我对模型的预测能力完全没有用吗? Breusch-Pagan检验确认方差不是恒定的。 我的残差在拟合值的函数中看起来像这样: (较大版本)

1
拟合优度以及选择线性回归或泊松的模型
我需要针对我的研究中的两个主要难题提出一些建议,这是对三大制药和创新案例的研究。每年的专利数量是因变量。 我的问题是 好的模型最重要的标准是什么?什么更重要或更重要?是大多数还是所有变量都是有意义的?是“ F统计”的概率吗?它是“调整后的R平方”的值吗? 第二,如何确定最合适的研究模型?除了专利是​​计数变量(可能是泊松计数)之外,我还有一些解释性变量,例如资产回报率,研发预算,重复合伙人(不是二进制变量的百分比),公司规模(员工)等等。我应该做线性回归还是泊松?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.