Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

1
具有完全成功的分类变量的二项式glmm
我正在运行带有二项式响应变量和分类预测变量的glmm。随机效果由用于数据收集的嵌套设计给出。数据如下所示: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: 1 2 3 4 …

3
连续数据堆积为零的GLM
我试图运行一个模型来估计结核病,艾滋病等灾难性疾病如何影响住院治疗。我将“每住院费用”作为因变量,并使用各种个体标记作为自变量,几乎所有变量都是虚拟变量,例如性别,户主,贫困状况,当然还有一个关于您是否生病(加上年龄)的虚拟变量。和年龄的平方)和一系列互动条件。 可以预料的是,有大量的数据(我的意思是很多)以零堆积(即,在12个月的参考期内没有住院费用)。处理此类数据的最佳方法是什么? 到目前为止,我决定将成本转换ln(1+cost)为包括所有观察值,然后运行线性模型。我在正确的轨道上吗?

1
通用线性模型(GLM)是否总是存在规范链接函数?
在GLM中,假定基础分布的标量和具有pdf 可以证明。如果链接函数满足以下条件,则其中是线性预测变量,则为此被称为规范链接函数模型。YYYθθ\thetafY(y|θ,τ)=h(y,τ)exp(θy−A(θ)d(τ))fY(y|θ,τ)=h(y,τ)exp⁡(θy−A(θ)d(τ))f_Y(y | \theta, \tau) = h(y,\tau) \exp{\left(\frac{\theta y - A(\theta)}{d(\tau)} \right)}μ=E(Y)=A′(θ)μ=E⁡(Y)=A′(θ) \mu = \operatorname{E}(Y) = A'(\theta)g(⋅)g(⋅)g(\cdot)g(μ)=θ=X′βg(μ)=θ=X′βg(\mu)=\theta = X'\beta X′βX′βX'\betag(⋅)g(⋅)g(\cdot) 我的问题是,规范链接功能是否始终存在于GLM中?换句话说,总是可以反转吗?规范链接函数存在的必要条件是什么?A′(θ)A′(θ)A'(\theta)

4
逻辑回归和拐点
我们有带有二进制结果和一些协变量的数据。我使用逻辑回归对数据进行建模。只是简单的分析,没什么特别的。最终输出应该是剂量响应曲线,在该曲线中,我们显示了特定协变量的概率如何变化。像这样: 我们从内部审核员(不是纯粹的统计学家)那里收到一些批评,选择逻辑回归。逻辑回归假设(或定义)S形曲线在概率标度上的拐点处于概率0.5。他认为,没有理由假定拐点确实在0.5的概率上,我们应该选择一个不同的回归模型,该模型允许拐点发生变化,以使实际位置受数据驱动。 起初我因为他的论点而措手不及,因为我从未考虑过这一点。我没有任何论点说明为什么将拐点设为0.5是合理的。经过研究后,我仍然没有这个问题的答案。 我遇到了5参数逻辑回归,其中拐点是一个附加参数,但似乎在产生具有连续结果的剂量反应曲线时通常使用此回归模型。我不确定是否以及如何将其扩展为二进制响应变量。 我想我的主要问题是为什么或何时可以确定逻辑回归的拐点为0.5?有关系吗 我从未见过有人适合逻辑回归模型并明确讨论拐点问题。是否有其他方法可以创建拐点不一定为0.5的剂量反应曲线? 为了完整起见,用于生成上面图片的R代码: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat) newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4))) pp <- predict(logit, newdata, type = "response", se.fit = …

1
验证Poisson回归模型的成本函数
对于我收集的计数数据,我使用泊松回归来构建模型。我使用glmR中的函数来执行此操作family = "poisson"。为了评估可能的模型(我有几个预测变量),我使用了AIC。到目前为止,一切都很好。现在,我要执行交叉验证。我已经使用包中的cv.glm函数成功完成了此操作boot。从我的文档中可以cv.glm看到,例如对于二项式数据,您需要使用特定的成本函数来获得有意义的预测误差。但是,我还不知道哪种成本函数适用于family = poisson,并且广泛的Google搜索没有产生任何特定的结果。我的问题是,任何人都需要弄清楚哪种成本函数适用cv.glm于Poisson glm。

2
通过基因重复水平进行富集分析
生物学背景 随着时间的流逝,某些植物物种倾向于复制其整个基因组,从而获得每个基因的额外副本。由于这种设置的不稳定性,许多这些基因随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件相关,并且理论上说复制可以帮助植物更快地适应其新环境。 羽扇豆属开花植物属入侵安第斯山脉,是有史以来发现的最迅速的物种形成事件之一,而且,与最密切相关的属巴氏杆菌属相比,它的基因组中有更多重复副本。 现在是数学问题: 已经对羽扇豆成员和巴氏杆菌成员的基因组进行了测序,从而提供了每个物种中约25,000个基因的原始数据。通过查询已知功能基因的数据库,我现在对基因可能具有的功能有了“最佳猜测”-例如,Gene1298可能与“果糖代谢,盐胁迫反应,冷胁迫反应”相关。我想知道,巴普蒂西亚和羽扇豆之间是否有重复事件,基因丢失是随机发生的,还是具有特定功能的基因更可能被保留或删除。 我有一个脚本,它将输出如下表所示的表。L *是与功能相关的所有羽扇豆基因的计数。L 1+是与至少存在一个重复副本的功能相关的羽扇豆基因的计数。我可以得到它来产生L 2 +,L 3+等,尽管由于测序过程,L 1+比L 2+更可靠。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

1
可以将这些数据汇总成二项式glm的比例吗?
我们要求60个人列出尽可能多的亚特兰大饭店特许经营权。总体列表中包括70多家餐厅,但我们淘汰了不到10%的人提到的餐厅,剩下45家。对于这45家餐厅,我们计算了列出特许经营权的线人的比例,并且我们对根据特许经营权(对数转换)的广告预算和自成为特许经营权以来的年限来建模此比例。 所以我写了这段代码: model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45) 正如预测的那样,这两个变量都显示出强大而显着的效果。 但是,即使我知道绝对不应该使用OLS回归对比例数据建模,但我随后编写了以下代码: model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45) 在这种情况下,“预算”仍然是重要的预测指标,但“年”相对较弱,并不重要。 这让我担心,对估计的信心会因汇总而被人为夸大。二项式glm实际上不是对数据进行矢量化处理,从而使模型基于45 * 55 = 2,475行吗?考虑到实际上只有45家餐厅和55名线人,这是否合适?这是否需要混合效果建模?

2
GLM输出中的色散参数
我已经在R中看到了一点,在summary()输出的底部附近,它指出 (Dispersion parameter for gaussian family taken to be 28.35031) 我在Google上进行了一些摸索,并了解到散度参数用于适应标准误差。我希望有人可以提供更多有关分散参数是什么以及应如何解释的详细信息?

1
在R中安装Poisson GLM-费率与计数有关的问题
我目前正在从事一个涉及GLM(最终是GAM)的项目,这些项目随着时间的推移会越来越多。通常,我会在SAS中执行此操作,但是我试图移至R,并遇到了一些问题。 当我适合使用以下方法对GLM进行计数时: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) 我得到: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 < 2e-16 *** exposure 0.94528 0.30808 3.068 0.00215 ** covariate -0.01317 …

1
如何使ANOVA适应二进制数据?
我有四个竞争模型,可用来预测n个受试者的二元结果变量(例如,毕业后的就业状况,1 =就业,0 =失业)。模型性能的自然指标是命中率,命中率是每个模型的正确预测的百分比。 在我看来,由于数据违反了ANOVA的假设,因此我无法在此设置中使用ANOVA。在上述设置中,是否可以使用等效程序代替ANOVA来检验所有四个模型均等效的假设?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


1
带身份链接的OLS与Poisson GLM
我的问题表明我对泊松回归和GLM总体上了解不足。以下是一些虚假数据来说明我的问题: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) 一些返回psuedo-R2的自定义函数: ### functions of pseudo-R2 psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)} predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)} 适合四种模型:OLS,带身份链接的高斯GLM,带日志链接的Poisson …

1
如何选择罕见事件的Logistic回归的截止概率
我有100,000个观察值(9个虚拟指标变量),具有1000个正值。Logistic回归在这种情况下应该可以正常工作,但临界概率使我感到困惑。 在普通文献中,我们选择50%截止值来预测1和0。我无法执行此操作,因为我的模型给出的最大值约为1%。因此,阈值可以在0.007或附近。 我确实了解ROC曲线以及曲线下的面积如何帮助我在同一数据集的两个LR模型之间进行选择。但是,ROC并不能帮助我选择最佳截断概率,该概率可以用来对样本外数据进行模型测试。 我是否应该简单地使用最小化阈值的截止值misclassification rate?(http://www2.sas.com/proceedings/sugi31/210-31.pdf) 添加->对于如此低的事件发生率,我的错误分类率受到大量误报的影响。虽然总体宇宙的大小也很大,但总体上看来该比率很高,但是我的模型不应有那么多的误报(因为它是投资回报模型)。5/10系数很重要。

1
似然比检验和Wald检验为R中的glm提供了不同的结论
我正在从通用模型,线性模型和混合模型复制示例。我的MWE如下: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) 输出量 Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family = binomial("logit"), …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.