Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)


1
GLM使用哪种残差和库克距离?
有人知道库克距离的公式是什么吗?最初的库克距离公式使用学生化残差,但是为什么R使用std。计算GLM的库克距离图时的皮尔逊残差。我知道没有为GLM定义学生化残差,但是用于计算Cook距离的公式如何? 假设以下示例: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) 库克距离的公式是什么?换句话说,计算红色虚线的公式是什么?标准化皮尔逊残差的公式从何而来?


2
逻辑模型的RMSE(均方根误差)
我对使用RMSE(均方根误差)比较不同逻辑模型的有效性存在疑问。响应为0或1,并且预测为0- 之间的概率1。 以下应用的方式对二进制响应也有效吗? # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") mydata$rank <- factor(mydata$rank) mylogit <- glm(admit ~ …

3
R中的glm-哪个pvalue表示整个模型的拟合优度?
我正在R(通用线性模型)中运行glms。我以为我知道pvalues-直到我看到调用glm的摘要不会为您提供代表整个模型的压倒性pvalue-至少不是在线性模型可以做到的地方。 我想知道这是否作为系数表顶部的Intercept的p值给出。因此,在下面的示例中,尽管Wind.speed..knots和canopy_density对模型可能很重要,但是我们如何知道模型本身是否很重要?我如何知道是否信任这些价值观?我是否想知道(Intercept)的Pr(> | z |)代表模型的重要性?这个模特重要吗?谢谢! 我应该注意,运行F检验不会给出pvalue,因为我收到一条错误消息,指出在二项式族上运行F检验是不合适的。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 * …

1
Bayesglm(手臂)与MCMCpack
双方bayesglm()(在手臂[R封装)和各种功能的MCMCpack包的目的是做广义线性模型的贝叶斯估计,但我不知道他们实际上是计算同样的事情。MCMCpack函数使用马尔可夫链蒙特卡罗方法从关节后部获得模型参数的(相关)样本。bayesglm()另一方面,产生。我不确定。 看起来像bayesglm()产生一个点估计,这将使其成为MAP(最大后验)估计,而不是完整的贝叶斯估计,但是sim()似乎有一个函数可用于获取后验绘制。 有人可以解释两者的预期用途的区别吗?可以bayesglm() + sim()产生真实的后验图,还是某种近似?

1
从简单的R lm模型重新计算对数似然
我只是想用dnorm()重新计算lm模型(在R中)的logLik函数提供的对数似然率。 对于大量数据(例如n = 1000),它可以(几乎完美)工作: > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' -2145.562 (df=3) > sigma <- sqrt(summary(mod)$dispersion) > sum(log(dnorm(x = y, mean = predict(mod), …


3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
我对转换后的因变量进行日志记录,可以将GLM正态分布与LOG链接功能一起使用吗?
我有一个关于广义线性模型(GLM)的问题。我的因变量(DV)是连续的并且不正常。因此,我对其进行了日志转换(仍然不正常,但对其进行了改进)。 我想将DV与两个类别变量和一个连续协变量相关联。为此,我想进行GLM(我正在使用SPSS),但是我不确定如何决定要选择的分布和功能。 我已经进行了Levene的非参数检验,并且我具有方差均匀性,因此我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正态的,残差也可以。因此,我从每个GLM分别打印了标准化的Pearson残差和线性预测变量的预测值(GLM正常标识函数和正常对数函数)。我已经进行了正态性检验(直方图和Shapiro-Wilk),并分别针对两个预测值绘制了残差与预测值(以检查随机性和方差)。来自身份函数的残差不正常,但来自对数函数的残差正常。我倾向于选择具有对数链接功能的正态,因为Pearson残差呈正态分布。 所以我的问题是: 可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗? 方差同质性检验是否足以证明使用正态分布是合理的? 残差检查程序是否正确以证明选择链接功能模型是正确的? 左侧是DV分布图,右侧是对数链接功能,是GLM法线的残差。

1
glm或glmnet哪个更准确?
R glm和glmnet使用不同的算法。 当我同时使用两者时,我会发现估计系数之间存在不小的差异。 我对何时一个比另一个更准确以及解决/准确性权衡的时间感兴趣。 具体来说,我指的是在glmnet中设置lambda = 0的情况,这是因为它估计与glm相同。


2
对数转换线性回归,对数回归与对数混合模型之间有什么区别?
假设我有10个学生,每个学生都尝试解决20个数学问题。对问题的评分为正确或不正确(在longdata中),每个学生的表现都可以通过准确性度量(在subjdata中)进行总结。下面的模型1、2和4看起来会产生不同的结果,但是我知道它们在做相同的事情。他们为什么产生不同的结果?(我提供了模型3作为参考。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
您如何使用EM算法为零膨胀泊松模型的潜在变量公式计算MLE?
通过 为样本定义零膨胀的Poisson回归模型 ,并进一步假设参数和满足(y1,…,yn)(y1,…,yn)(y_1,\ldots,y_n)ÿ一世= { 0ķ概率为p 一世+ (1 − p一世)e- λ一世概率(1 − p 一世)e- λ一世λķ一世/ k!Yi={0with probability pi+(1−pi)e−λikwith probability (1−pi)e−λiλik/k! Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! \end{cases}λ =( λ1个,… ,λñ)λ=(λ1,…,λn)\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)p =( p1个,… ,pñ)p=(p1,…,pn)\textbf{p} = (p_1, \dots, p_n) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.