Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)


4
用于计数回归的诊断图
在结果是计数变量的情况下,您发现哪些诊断图(也许是形式测试)对回归分析最有帮助? 我对泊松模型和负二项式模型以及每种模型的零膨胀和跨栏模型特别感兴趣。我发现的大多数资源都只是将残差与拟合值作图,而没有讨论这些图“应该”是什么样。 智慧和参考非常感谢。关于我为什么要问这个问题(如果相关)的背景故事是我的另一个问题。 相关讨论: 解释glm模型的残留诊断图? 广义线性模型的假设 GLM-诊断和哪个系列

4
何时使用伽马GLM?
伽马分布可以采用多种形式,并且通过其两个参数给出了均值和方差之间的联系,它似乎适合处理非负数据中的异方差,这使得对数转换的OLS可以没有WLS或某种异方差一致的VCV估计器就无法做到。 在常规的非负数据建模中,我会更多地使用它,但是我不认识其他使用它的人,我还没有在正式的课堂环境中学习它,而我阅读的文献也从未使用过它。每当我使用诸如“伽马GLM的实际使用”之类的Google字词时,我都会提出建议将其用于Poisson事件之间的等待时间。好。但这似乎是限制性的,并且不能唯一使用。 天真的,考虑到伽玛的灵活性,伽玛GLM似乎是对非负数据建模的一种相对假设的轻松手段。当然,您需要像任何模型一样检查QQ图和残差图。但是我有什么严重的缺点想念吗?除了与“仅运行OLS”的人进行交流之外?

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 



1
如何解释泊松回归中的系数?
我如何解释泊松回归中的主要影响(虚拟编码因子的系数)? 假设以下示例: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

3
逻辑回归中的残差是什么意思?
在回答这个问题时,约翰·克里斯蒂(John Christie)建议通过评估残差来评估逻辑回归模型的拟合度。我熟悉如何解释OLS中的残差,它们与DV具有相同的比例,并且非常清楚地知道y与模型预测的y之间的差异。但是对于逻辑回归,过去我通常只检查模型拟合的估计值,例如AIC,因为我不确定残差对逻辑回归意味着什么。在稍微看一下R的帮助文件后,我发现R中有五种类型的glm残差可用c("deviance", "pearson", "working","response", "partial")。帮助文件是指: Davison,AC和Snell,EJ(1991)残留和诊断。在:统计理论与建模。为了纪念David Cox爵士,FRS编辑。欣克利,DV,里德,N。和斯内尔,EJ,查普曼和霍尔。 我没有那个副本。是否有简短的方法来描述如何解释这些类型中的每一种?在逻辑条件下,残差平方和会提供一种有意义的模型拟合度量,还是采用信息准则会更好?

1
为什么建议对计数数据使用平方根变换?
当您拥有计数数据时,通常建议取平方根。(有关简历一些例子,看看@ HarveyMotulsky的答案在这里,或@ whuber的答案在这里。)另外,装修与分布泊松响应变量广义线性模型时,日志是规范链接。这有点像对响应数据进行对数转换(尽管更准确地说,是对控制响应分布的参数进行对数转换)。因此,这两者之间存在某种张力。 λλ\lambda 您如何调和这种(明显的)差异? 为什么平方根比对数好?

4
在LM和GLM之间选择对数转换后的响应变量
我试图了解使用广义线性模型(GLM)与线性模型(LM)的原理。我在下面创建了一个示例数据集: 日志(y)= x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon 该示例的误差不随y的大小而变化,因此我假设对数转换的y的线性模型是最好的。在下面的示例中,确实是这种情况(我认为)-因为LM在对数转换后的数据上的AIC最低。具有对数链接功能的Gamma分布GLM的AIC具有较低的平方和(SS),但是附加的自由度会导致AIC稍高。我惊讶于高斯分布AIC如此之高(即使SS是模型中最低的)。εε\varepsilonÿyy 我希望就何时应该使用GLM模型获得一些建议-即我应该在LM模型拟合残差中寻找一些东西来告诉我另一种分布更合适吗?另外,应该如何选择合适的分销家庭。 在此先感谢您的帮助。 [编辑]:我现在调整了摘要统计信息,以便对数转换后的线性模型的SS与具有对数链接功能的GLM模型相当。现在显示统计图。 例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- …

9
高级统计书籍推荐
该站点上有多个线程可提供有关入门统计和机器学习的书籍建议,但我正在寻找有关高级统计的文章,其中包括按优先级排列的顺序:最大似然,广义线性模型,主成分分析,非线性模型。我已经尝试过AC Davison的统计模型,但是坦率地说,我不得不在2章之后将其放下。本书内容涵盖了百科全书和数学知识,但是作为一名从业者,我喜欢通过首先了解直觉来接近学科,然后再深入研究数学背景。 这些是一些我认为具有教学价值的文章。我想为我提到的更高级的科目找到同等的科目。 统计,D。Freedman,R。Pisani,R。Purves。 预测:方法与应用,R。Hyndman等。 多元回归与超越,TZ基思 Rand R. Wilcox,《应用当代统计技术》 R语言中的统计学习及其应用简介(已发布PDF版本),Gareth James,Daniela Witten,Trevor Hastie和Robert Tibshirani 统计学习的要素:数据挖掘,推理和预测。-(PDF发布版本),哈斯提,蒂布希拉尼和弗里德曼(2009)

1
从逻辑回归模型拟合中获得预测值(Y = 1或0)
假设我有一个类的对象glm(对应于逻辑回归模型),并且我想将predict.glm使用参数提供的预测概率type="response"转换为二进制响应,即或。在R中最快,最规范的方法是什么?Y=1Y=1Y=1Y=0Y=0Y=0 再次,虽然我知道了predict.glm,但我不知道截止值确切 -我想这是我这里的主要绊脚石。P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})



3
具有对数转换响应的线性模型与带对数链接的广义线性模型
在这篇题为“适用于医学数据的广义线性模型之间的选择”的论文中,作者写道: 在广义线性模型中,均值是通过链接函数转换的,而不是转换响应本身的。两种转换方法可能导致完全不同的结果。例如, 对数转换后的响应的平均值与均值响应的对数不同。通常,前者不能轻易转化为平均反应。因此,转换均值通常可以更容易地解释结果,特别是在均值参数与测量响应保持相同范围的情况下。 他们似乎建议使用带有对数链接的广义线性模型(GLM)代替具有对数转换响应的线性模型(LM)。我不了解这种方法的优势,对我来说似乎很不寻常。 我的响应变量看起来呈对数正态分布。无论采用哪种方法,在系数及其标准误差方面,我都得到类似的结果。 不过我在想:如果一个变量具有对数正态分布,不是平均的对数变换变量最好在日志的平均未转换的变量,作为均值是正态分布的自然总结和日志-transformed变量是正态分布的,而变量本身不是吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.