统计和大数据 generalized-linear-model

2

我想在拟合逻辑回归模型的同时将计数数据用作协变量。我的问题是：通过使用非负整数计数作为自变量，我是否违反了逻辑模型（更一般地说，广义线性模型）的任何假设？我在文献中发现了很多关于将计数数据用作结果而不是协变量的参考。参见非常清晰的论文：“ NE Breslow（1996）广义线性模型：检验假设和加强结论，意大利国家生物技术大会，1995年6月，科尔托纳”，网址为 http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf。松散地说，似乎glm假设可以表示为：残差链接函数必须正确表示因变量和自变量之间的关系；没有异常值是否每个人都知道是否存在其他建议/技术问题，可能建议使用其他类型的模型来处理计数协变量？最后，请注意，我的数据包含的样本相对较少（<100），并且计数变量的范围可以在3-4个数量级内变化（即某些变量的值在0-10范围内，而其他变量的值可以在0-10之间0-10000）。一个简单的R示例代码如下： \########################################################### \#generating simulated data var1 <- sample(0:10, 100, replace = TRUE); var2 <- sample(0:1000, 100, replace = TRUE); var3 <- sample(0:100000, 100, replace = TRUE); outcome <- sample(0:1, 100, replace = TRUE); dataset <- data.frame(outcome, var1, …

14 generalized-linear-model count-data

2

我可以使用glm算法进行多项式逻辑回归吗？

我在项目中使用Spotfire（S ++）进行统计分析，并且必须对大型数据集运行多项逻辑回归。我知道最好的算法应该是mlogit，但不幸的是，这在s ++中不可用。但是，我可以选择使用glm算法进行回归。我想在这里澄清两件事： 1.我的理解是否正确，glm也可以用于运行多项式逻辑回归？如果对上一个问题的回答是“是”，那么应在glm算法中使用哪些参数？谢谢，

14 generalized-linear-model logistic

3

考试成绩真的遵循正态分布吗？

我一直在尝试了解要在GLM中使用哪些发行版，而在何时使用正态发行版时我有些糊涂。在我的教科书的一部分中，它说正态分布可能对建模考试成绩很有利。在下一部分中，它询问对汽车保险索赔进行建模的哪种分布是合适的。这次，它说适当的分布将是Gamma或反高斯分布，因为它们仅以正值连续。好吧，我相信考试成绩也只会是正数，而是连续的，那为什么我们要在那使用正态分布呢？正态分布是否允许负值？

14 normal-distribution generalized-linear-model gamma-distribution inverse-gaussian-distrib

3

在GLM中，饱和模型的对数似然性是否始终为零？

作为广义线性模型输出的一部分，零偏差和残差偏差用于评估模型。我经常看到这些量的饱和模型的对数似然来表示的公式，例如：/stats//a/113022/22199，Logistic回归：如何获取饱和模型据我所知，饱和模型是完全符合观察到的响应的模型。因此，在我见过的大多数地方，饱和模型的对数似然始终为零。但是，给出偏差公式的方式表明，有时该量不为零。（好像总是始终为零，为什么还要包括它？）在什么情况下可以为非零？如果它永远都不为零，为什么要在偏差公式中包括它？

14 regression generalized-linear-model deviance log-likelihood

2

R：glm函数，族=“二项式”和“重量”规格

我对体重与family =“ binomial”在glm中的工作方式非常困惑。在我的理解中，具有family =“ binomial”的glm的可能性指定如下：，其中y是“观察到的成功比例”，n是已知的试验次数。ynf(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) yyynnn 以我的理解，成功概率ppp由一些线性系数\ beta参数ββ\beta化为p=p(β)p=p(β)p=p(\beta)并且glm函数带有family =“ binomial”搜索： argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). 然后可以将此优化问题简化为： arg 最大β∑一世日志F（y一世）= arg 最大值β∑一世ñ一世[ y一世日志p （β）1 − p （β）- （- 日志（1 − …

14 r logistic generalized-linear-model binomial weighted-regression

2

如何解释泊松GLM结果中的参数估计值[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 5年前关闭。 Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 0.051548 -0.951 0.34166 …

14 self-study generalized-linear-model interpretation poisson-regression

1

泊松回归是否有错误项？

我只是想知道泊松回归是否有错误项？泊松回归可以具有随机效应和误差项吗？我对此感到困惑。在逻辑回归中，没有错误项，因为您的结果变量是二进制的。那是唯一没有残差项的glm模型吗？

14 regression mixed-model generalized-linear-model poisson-regression

1

线性模型中的R平方与广义线性模型中的偏差成正比？

这是我针对这个问题的上下文：据我所知，使用加权数据和数据survey包时，我们无法在R中运行普通的最小二乘回归。在这里，我们必须使用svyglm()，而不是运行一个广义线性模型（可能是同一件事？在这里我不清楚什么是不同的）。在OLS中，通过该lm()函数，它可以计算R平方值，我确实理解其解释。但是，svyglm()似乎并没有计算出这个误差，而是给了我一个偏差，我在互联网上的短暂旅行告诉我，这是一种拟合优度度量，其解释与R平方不同。所以我想我基本上有两个我希望得到指导的问题：为什么survey似乎无法在Stata中使用加权数据来在包中运行OLS ？广义线性模型的偏差和r平方值在解释上有什么区别？

14 r generalized-linear-model least-squares r-squared deviance

1

广义线性模型的假设

我制作了一个具有单个响应变量（连续/正态分布）和4个解释变量（其中3个是因子，第四个是整数）的广义线性模型。我使用了具有身份链接功能的高斯误差分布。我目前正在检查模型是否满足广义线性模型的假设，即： Y的独立性正确的链接功能解释变量的正确计量范围没有影响力的观察我的问题是：如何检查模型是否满足这些假设？最好的起点似乎是针对每个解释变量绘制响应变量。但是，有3个解释变量是分类的（具有1-4个级别），那么在图中我应该寻找什么？另外，我是否需要检查解释变量之间的多重共线性和相互作用？如果是，我该如何使用分类解释变量？

14 regression generalized-linear-model ancova assumptions scatterplot

2

在具有Gamma分布的GLM中使用R

我目前在理解R语法以使用Gamma分布拟合GLM时遇到问题。我有一组数据，其中每行包含3个协变量（），响应变量（）和形状参数（）。我想将Gamma分布的比例建模为3个协变量的线性函数，但是我不了解如何为每行数据将分布的形状设置为 ÿ ķ ķX1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK 我认为类似的情况是，对于二项式分布，GLM要求知道每个数据条目的试验次数（）。NNN

14 r generalized-linear-model gamma-distribution dglm

1

用分类数据解释负二项式GLM的.L和.Q输出

我只是运行负二项式GLM，这是输出： Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

14 r categorical-data generalized-linear-model interpretation negative-binomial

1

logistic回归和分数响应回归之间有什么区别？

据我所知，逻辑模型和分数响应模型（frm）之间的区别在于，因变量（Y）其中frm为[0,1]，而logistic为{0，1}。此外，frm使用拟似然估计器确定其参数。通常，我们可以使用glm来获得逻辑模型glm(y ~ x1+x2, data = dat, family = binomial(logit))。对于frm，我们更改family = binomial(logit)为family = quasibinomial(logit)。我注意到我们也可以family = binomial(logit)用来获取frm的参数，因为它给出了相同的估计值。请参阅以下示例 library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata ,family = binomial('logit')) summary(glm.bin) 返回， Call: glm(formula = prate ~ mrate + age + …

13 r logistic generalized-linear-model quasi-likelihood

2

摘要.glm（）中的分散

我进行了glm.nb glm1<-glm.nb(x~factor(group)) 其中group为类别，x为度量变量。当我尝试获取结果摘要时，根据是否使用summary()或，我会得到略有不同的结果summary.glm。summary(glm1)给我 ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(0.7109) family taken to …

13 r generalized-linear-model negative-binomial

1

了解逻辑回归的预测

我来自逻辑回归模型（R中的glm）的预测并不像我期望的那样介于0和1之间。我对逻辑回归的理解是，您的输入和模型参数线性组合，并且使用对数链接函数将响应转换为概率。由于logit函数的范围是0到1，因此我希望我的预测范围是0到1。但是，当我在R中实现逻辑回归时，这不是我看到的： data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) 如果有的话，predict（model）的输出对我来说看起来很正常。谁能向我解释为什么我得到的值不是概率？

13 r regression logistic generalized-linear-model

1

比率分析技术

我正在寻找有关比率和费率分析的建议和意见。在我工作的领域中，尤其是比率的分析非常普遍，但是我已经阅读了几篇论文，表明这可能是有问题的，我在想： Kronmal，Richard A.1993。重新讨论了比率标准的虚假相关和谬误。皇家统计协会杂志A 156（3）：379-392 及相关论文。根据我到目前为止所读的内容，比率似乎可以产生虚假的相关性，迫使回归线穿过原点（这并不总是合适的），并且如果不正确地进行建模，可能会违反边际原理（在理查德·戈德斯坦（Richard Goldstein）中使用比率回归））。但是，在某些情况下必须合理使用比率，我希望统计学家对此发表一些意见。

13 modeling multiple-regression generalized-linear-model interaction confounding

Questions tagged «generalized-linear-model»