Questions tagged «generalized-linear-model»

线性回归的一般化允许通过“链接函数”建立非线性关系,并且响应的方差取决于预测值。(不要与“普通线性模型”混淆,后者将普通线性模型扩展到普通协方差结构和多元响应。)

2
一本既讲理论又讲数学的好书
在我的学年和大学期间,我有足够的统计学课程。我对概念有一定的了解,例如CI,p值,解释统计显着性,多重检验,相关性,简单线性回归(最小二乘法)(通用线性模型)以及所有假设检验。在早期的大部分时间里,我大多是在数学上被介绍给我的。最近,我相信,借助于《直觉生物统计学》一书,我已经掌握了对实际概念理论的前所未有的理解。 现在,我发现我缺乏对拟合模型(估计模型的参数)等的理解。特别是,诸如最大似然估计,广义线性模型,贝叶斯推断统计方法之类的概念对我而言似乎总是陌生的。没有足够的示例或教程或概念上合理的示例,就像人们在简单的概率模型或互联网上的其他(基本)主题中发现的那样。 我是一名生物信息学家,我从事RNA-Seq数据的研究,该数据处理原始读取计数,以便查找基因表达(或差异基因表达)。从我的背景来看,即使我不熟悉统计模型,我也能够掌握泊松分布假设和负二项式等的原因。但是有些论文涉及广义线性模型和估计MLE等。我相信我有必要了解的背景。 我想我要的是你们中的一些专家认为有用的方法,这是一本书,可以帮助我以更直观的方式掌握这些概念(不仅是严格的数学,而且有数学支持的理论)。由于我将主要应用它们,因此(目前)我对了解什么是满意的,以后,我可以返回严格的数学证明...有人有什么建议吗?如果我要求的主题确实分散在一本书中,则我不介意购买多于一本书。 非常感谢你!

1
混合效应逻辑回归的固定效应解释
我对UCLA网页上有关混合效应逻辑回归的陈述感到困惑。他们显示了一个通过拟合这样的模型得到的固定效应系数表,下面的第一段似乎完全像正常的逻辑回归那样解释系数。但是,当他们谈论比值比时,他们说您必须根据随机效应来解释它们。是什么使对数奇数的解释与其指数值不同? 要么不需要“保持其他所有内容不变”? 从该模型解释固定效应系数的正确方法是什么?我总是给人的印象是“正常”逻辑回归没有任何变化,因为随机效应的期望值为零。因此,无论有无随机效应,您都可以解释完全相同的对数奇数和优势比-仅更改了SE。 估计可以基本上一如既往地解释。例如,对于IL6,IL6的单位增加与预期的缓解对数几率中的0.053单位降低相关。同样,已婚或已婚的人有望获得的缓解几率比未婚者高0.26。 许多人喜欢解释赔率。但是,当存在混合效果时,这些将具有更细微的含义。在常规logistic回归中,优势比与所有其他预测变量固定的预期优势比成正比。这是有道理的,因为我们经常对统计数据进行调整以适应其他影响(例如年龄),以获得结婚的“纯”影响或任何主要的主要预测指标。混合效应逻辑模型也是如此,此外,保持所有其他特征不变包括保持随机效应不变。也就是说,赔率是指保持年龄和IL6恒定的人以及具有相同医生或具有相同随机效应的医生的人的条件赔率


1
GLM的日志可能性
在下面的代码中,我使用glm对分组数据执行逻辑回归,并使用mle2对“手工”进行逻辑回归。为什么R中的logLik函数会给我一个对数可能性logLik(fit.glm)=-2.336,而不是我手工得到的一个logLik(fit.ml)=-5.514? library(bbmle) #successes in first column, failures in second Y <- matrix(c(1,2,4,3,2,0),3,2) #predictor X <- c(0,1,2) #use glm fit.glm <- glm(Y ~ X,family=binomial (link=logit)) summary(fit.glm) #use mle2 invlogit <- function(x) { exp(x) / (1+exp(x))} nloglike <- function(a,b) { L <- 0 for (i in 1:n){ L <- L + sum(y[i,1]*log(invlogit(a+b*x[i])) …

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
分类变量和连续变量之间相互作用的解释系数
我对连续变量和分类变量之间的相互作用系数的解释有疑问。这是我的模型: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 1.1203 …

4
在R中的逻辑回归模型上缺乏拟合度时,如何计算Pearson的检验统计量?
对于R中的逻辑回归模型(使用函数进行拟合),获得似然比(aka偏差)统计和不拟合(或拟合优)检验非常简单。容易使某些单元格计数低到足以使测试不可靠的程度。验证似然比检验是否缺乏拟合的可靠性的一种方法是将其检验统计量和P值与Pearson的卡方检验(或)缺乏拟合的检验进行比较。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 该glm对象及其summary()方法均未报告缺少拟合的Pearson卡方检验的检验统计量。在搜索中,我唯一想到的就是chisq.test()功能(在stats包装中):其文档说“ chisq.test执行卡方列联表测试和拟合优度测试”。但是,该文档缺乏有关如何执行此类测试的信息: 如果x是具有一行或一列的矩阵,或者如果x是向量y且未给出,则执行拟合优度检验(x被视为一维列联表)。的条目x必须是非负整数。在这种情况下,检验的假设是总体概率是否等于中的概率p,如果p未给出,则全部等于。 我猜想您可以y将glm对象的组件用作的x参数chisq.test。但是,您不能fitted.values将glm对象的组件用作的p参数chisq.test,因为会出现错误:“ probabilities must sum to 1.” 如何(在R中)至少可以计算出缺乏拟合的Pearson测试统计量,而不必手动执行这些步骤?χ2χ2\chi^2

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
在预测冰球运动员的职业生涯总目标时是否在Poisson回归中使用偏移
我有一个关于不愿使用补偿的问题。假设一个非常简单的模型,您要在其中描述曲棍球的(全部)目标数。因此,您有目标,打的游戏次数和虚拟变量“ strike”(如果玩家是前锋,则等于1,否则等于0)。那么正确指定了以下哪个模型? 目标=游戏+前锋,或 目标=偏移量(游戏)+前锋 同样,目标是整体目标,游戏数量是单个玩家的整体游戏。例如,可能有一个玩家在100场比赛中有50个进球,而另一个在50场比赛中有20个进球的玩家,依此类推。 我想估算目标数时应该怎么做?是否真的需要在此处使用偏移量? 参考文献: 参见前面的问题,讨论一般在Poisson回归中何时使用偏移量。

1
R中逻辑模型的输出
我正在尝试解释以下类型的物流模型: mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) predict(mdl)每个数据点的预期成功几率是否输出?是否有一种简单的方法可以为模型的每个因子级别(而不是所有数据点)列表几率?

1
正则化线性与RKHS回归
我正在研究RKHS回归中的正则化与线性回归之间的差异,但是我很难理解两者之间的关键差异。 给定的输入-输出对,我想估计的函数如下 ,其中是内核函数。可以通过求解来找到 系数 其中,在某种程度上滥用符号的情况下,内核矩阵K的第i,j个条目是{\ displaystyle K(x_ {i},x_ {j})}。这给出 \ begin {equation} \ alpha ^ * =(K + \ lambda nI)^ {-1} Y。\ end {equation}(xi,yi)(xi,yi)(x_i,y_i)f(⋅)f(⋅)f(\cdot)f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_m我,Ĵķķ(X我,XĴ)α*=(ķ+λÑ我)-1ÿ。minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}i,ji,ji,jKKKK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation} 另外,我们可以将该问题视为正常的岭回归/线性回归问题: 分α ∈ [Rñ1个ñ∥ ÿ− Kα ∥2[Rñ+ λ αŤα,分α∈[Rñ1个ñ‖ÿ-ķα‖[Rñ2+λαŤα,\begin{equation} {\displaystyle \min …


5
用图形方式表示大量成对数据点的一种好方法是什么?
在我的领域中,绘制配对数据的常用方法是将一系列倾斜的细线段重叠起来,并用两组的中值和中值CI进行覆盖: 但是,由于数据点的数量变得非常大(在我的情况下,我的数量大约为10000对),这种图变得更加难以阅读: 降低alpha值会有所帮助,但这仍然不是很好。在寻找解决方案时,我遇到了本文,并决定尝试实现“平行线图”。同样,它对于少量数据点也非常有效: ññN 我想我可以分别显示两组的分布,例如使用箱形图或小提琴,并在顶部绘制一条带有误差线的线以显示两个中位数/ CI,但是我真的不喜欢这个想法,因为它无法传达数据的配对性质。 我也不太热衷于2D散点图的概念:我希望使用更紧凑的表示形式,理想情况下是将两组值沿同一轴绘制的表示形式。为了完整起见,以下是二维散点图的数据: 有谁知道一种更好的方法来表示具有很大样本量的配对数据?您能否将我链接到一些示例? 编辑 对不起,我显然在解释我要寻找的东西方面做得不够好。是的,二维散点图确实有效,并且可以通过多种方式进行改进以更好地传达点的密度-我可以根据核密度估计对点进行颜色编码,也可以制作二维直方图,我可以在点等上方绘制轮廓,等等。 但是,对于我要传达的信息,我认为这太过分了。我实际上并不关心显示点本身的2D密度-我需要做的就是以尽可能简单明了的方式显示“条”的值通常大于“点”的值。 ,并且不会丢失数据的基本配对性质。理想情况下,我想沿同一轴而不是正交轴绘制两组的配对值,因为这样可以更直观地进行比较。 也许没有比散点图更好的选择了,但是我想知道是否有其他可行的选择。

1
估计多级Logistic回归模型
以下多级逻辑模型,其中一个解释变量在级别1(个人级别),一个解释变量在级别2(组级别): π 0 Ĵ = γ 00 + γ 01 ż Ĵ + ü 0 Ĵ ... (2 )logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0 Ĵ= γ00+ γ01žĴ+ 你0 Ĵ… (2 )π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1 Ĵ= γ10+ γ11žĴ+ 你1 Ĵ… (3 )π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) 其中,假定组级别残差ü0 Ĵu0ju_{0j}和ü1 Ĵu1ju_{1j}具有期望值为零的多元正态分布。残留误差 u_ {0j}的方差ü0 Ĵu0ju_{0j}指定为σ20σ02\sigma^2_0,残留误差u_ {1j}的方差 ü1 Ĵu1ju_{1j}指定为σ21个σ12\sigma^2_1。 我想估算模型的参数,并且喜欢使用 Rcommand glmmPQL。 …

3
建模计数数据,其中偏移变量为0的某些观察结果
我正在努力帮助一位同事的学生。学生在实验设置中观察并计算了鸟类行为(叫声次数)。虽然无法确定每个实验中可观察到的特定鸟类的召唤次数,但可以计算促成记录的召唤次数的鸟类数量。因此,我最初的建议是在Poisson GLM模型中将鸟的数量作为偏移项包括在内,因此,我们将拟合每只鸟的预期通话数量。 问题在于,在许多观察场合中,没有观察到鸟(因此也没有鸣叫)。该软件(在这种情况下为R)抱怨是因为日志(0 )= − inf日志⁡(0)=-信息\log(0) = -\inf(R抱怨y包含-Inf的数据,但是纯粹的结果offset(log(nbirds))是-Inf)。 我实际上怀疑我们需要一个障碍模型(或类似模型),在该模型中,我们有一个单独的二项式模型用于“观察到的呼叫”?(或没有)和截断计数模型(在有电话的情况下,每只鸟的电话数),其中仅将偏移项包括在模型的计数部分中。 在R中使用pscl包尝试了此操作,但是我仍然遇到相同的错误: mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | 1, data = Data, dist = "poisson") 因为即使我认为这不会影响适合这些观察值的模型,也要检查相同的R代码(glm.fit供内部使用hurdle()以适合计数模型的一部分)-Inf。(这是一个正确的假设吗?) 我可以通过将一个较小的数字添加到NumberCOPO(例如0.0001)中来使模型适合,但这充其量只是一种捏造。 在实践中添加这种小的连续性校正是否可以?如果不是,在泊松模型中偏移变量可以取值为0的Poisson模型中处理数据时,我们还应该考虑其他哪些方法?我遇到的所有示例都是针对offset变量不可能为0的情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.