Questions tagged «offset»

固定系数为1的变量。泊松回归中通常使用偏移量,以允许对比率而不是计数进行建模。


2
在泊松模型中,将时间用作协变量或偏移量有什么区别?
最近,我发现了如何使用(例如)时间的对数作为Poisson回归中的偏移量来建模随时间变化的曝光量。 我知道偏移量对应于时间与系数1协变量。 我想更好地了解使用时间作为偏移量或作为正常协变量(从而估算系数)之间的区别。在哪种情况下我应该使用一种方法或另一种方法? 升级:我不知道这是否有趣,但是我使用重复重复500次的随机拆分数据对这两种方法进行了验证,我注意到使用offset方法会导致更大的测试错误。

4
在二项式模型中使用偏移量来说明患者数量的增加
我提出了两个相关问题。我有一个数据框,该数据框在一列中包含患者人数(范围为10-17位患者),分别显示当天是否发生事件的0和1。我使用的是二项式模型来将事件的概率回归到患者人数上。但是,我想适应这样一个事实:当有更多的病人时,不可避免地会发生更多的事件,因为那天病房的病人总时间更长。 所以我正在使用像这样的偏移二项式模型(R代码): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 我的问题是: 可以完全相同地预测变量和偏移量吗?我想部分排除进补概率的增加,从本质上看是否还有剩余。这对我来说很有意义,但是如果我弄错了,我会有些谨慎。 偏移量指定正确吗?我知道在泊松模型中会读到 offset=log(Numbers) 我不知道这里是否有等效项,而且我似乎找不到与Google相关的二项式偏移量(主要问题是我不断得到负二项式,这当然是不好的)。

3
使用glm()代替简单的卡方检验
我有兴趣更改glm()R中使用的原假设。 例如: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) 检验的假设p = 0.5p=0.5p = 0.5。如果我想将null更改为ppp =某个任意值,该glm()怎么办? 我知道也可以使用prop.test()和来完成此操作chisq.test(),但是我想探讨一下使用glm()来测试与分类数据有关的所有假设的想法。

2
具有对数偏移量的二进制模型(Probit和Logit)
是否有人对偏移量在probit和logit等二进制模型中的工作原理有任何推论? 我的问题是,后续窗口的长度可能会有所不同。假设患者接受了预防性治疗。这个镜头发生在不同的时间,所以如果结果是是否二进制指示任何的突发事,你需要调整的事实,有些人有更多的时间来展示症状。爆发的可能性似乎与随访时间的长短成正比。对我而言,数学上尚不清楚,具有偏移量的二进制模型如何捕获这种直觉(与Poisson不同)。 偏移量是Stata(p.1666)和R的标准选项,对于Poisson来说我很容易看到它,但是二进制情​​况有点不透明。 例如,如果我们有 在代数上等于模型,其中 是标准模型,上的系数限制为。这称为对数偏移量。如果我们将替换为或我很难弄清楚它是如何工作的。E[y|x]Z=exp{x′β},E[y|x]Z=exp⁡{x′β},\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[y|x]=exp{x′β+logZ},E[y|x]=exp⁡{x′β+log⁡Z},\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}logZlog⁡Z\log Z111exp{}exp⁡{}\exp\{\}Φ()Φ()\Phi()Λ()Λ()\Lambda() 更新#1: 下面说明了logit情况。 更新#2: 这是对非泊松模型(如Probit)的偏移量主要用途的解释。该偏移量可用于对指标函数系数进行似然比测试。首先,您要估算无约束模型并存储估算值。假设您要检验的假设。然后,创建变量,将模型删除并使用作为非对数偏移量进行拟合。这是约束模型。LR测试将两者进行比较,并且可以替代常规的Wald测试。βx=2βx=2\beta_x=2z=2⋅xz=2⋅xz=2 \cdot xxxxzzz

3
我的Poisson GLM应该使用偏移量吗?
我正在进行研究,以研究使用两种不同的水下视觉普查方法时鱼类密度和鱼类物种丰富度的差异。我的数据最初是计数数据,但通常将其更改为鱼的密度,但我仍然决定使用Poisson GLM,我希望它是正确的。 model1 <- glm(g_den ~ method + site + depth, poisson) 我输入的3个预测变量是方法,位置和深度,它们是我作为因素排序的。 我的反应变量是石斑鱼物种丰富度,石斑鱼密度,其他鱼类也一样。我知道密度不是整数,而是数字数据,例如1.34849。我现在却收到此错误: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 我一直在阅读,很多人建议使用偏移量,这是最明智的选择吗?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
建模计数数据,其中偏移变量为0的某些观察结果
我正在努力帮助一位同事的学生。学生在实验设置中观察并计算了鸟类行为(叫声次数)。虽然无法确定每个实验中可观察到的特定鸟类的召唤次数,但可以计算促成记录的召唤次数的鸟类数量。因此,我最初的建议是在Poisson GLM模型中将鸟的数量作为偏移项包括在内,因此,我们将拟合每只鸟的预期通话数量。 问题在于,在许多观察场合中,没有观察到鸟(因此也没有鸣叫)。该软件(在这种情况下为R)抱怨是因为日志(0 )= − inf日志⁡(0)=-信息\log(0) = -\inf(R抱怨y包含-Inf的数据,但是纯粹的结果offset(log(nbirds))是-Inf)。 我实际上怀疑我们需要一个障碍模型(或类似模型),在该模型中,我们有一个单独的二项式模型用于“观察到的呼叫”?(或没有)和截断计数模型(在有电话的情况下,每只鸟的电话数),其中仅将偏移项包括在模型的计数部分中。 在R中使用pscl包尝试了此操作,但是我仍然遇到相同的错误: mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | 1, data = Data, dist = "poisson") 因为即使我认为这不会影响适合这些观察值的模型,也要检查相同的R代码(glm.fit供内部使用hurdle()以适合计数模型的一部分)-Inf。(这是一个正确的假设吗?) 我可以通过将一个较小的数字添加到NumberCOPO(例如0.0001)中来使模型适合,但这充其量只是一种捏造。 在实践中添加这种小的连续性校正是否可以?如果不是,在泊松模型中偏移变量可以取值为0的Poisson模型中处理数据时,我们还应该考虑其他哪些方法?我遇到的所有示例都是针对offset变量不可能为0的情况。

1
用偏移量预测GLM泊松
我知道这可能是一个基本问题...但是我似乎找不到答案。 我正在为Poisson系列安装GLM,然后尝试查看预测,但是似乎确实考虑了偏移量: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") 我得到的情况不是费率... 我也尝试过 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 结果相同。但是,当我使用mgcv从GAM进行预测时,这些预测会考虑偏移量(我得到比率)。 我想念什么吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.