Questions tagged «fixed-effects-model»

在生物统计学中,固定效应可能意味着人口平均效应。在计量经济学中,固定效应可以用解释变量表示观察到的数量,这些解释变量被视为非随机量。


3
R的lmer备忘单
这个论坛上有很多讨论,涉及使用来指定各种层次模型的正确方法lmer。 我认为将所有信息都放在一个地方会很棒。有几个问题要开始: 如何指定多个级别,其中一个组嵌套在另一个组中:是(1|group1:group2)还是(1+group1|group2)? (~1 + ....)和(1 | ...)和(0 | ...)等之间有什么区别? 如何指定小组级别的互动?

2
随机效应模型,固定效应模型和边际模型之间有什么区别?
我正在尝试扩展我的统计知识。我来自物理科学背景,采用“基于配方”的方法进行统计测试,我们说它是连续的,是否呈正态分布-OLS回归。 在阅读中,我遇到了以下术语:随机效应模型,固定效应模型,边际模型。我的问题是: 简单来说,它们是什么? 它们之间有什么区别? 他们有同义词吗? 传统测试(例如OLS回归,ANOVA和ANCOVA)在哪里分类? 只是尝试决定自学的下一步。

4
R中的标准错误聚类(手动或plm)
我试图理解标准错误“聚类”以及如何在R中执行(在Stata中是微不足道的)。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。 我可以使用任一虚拟变量进行固定效果 > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …


5
在混合模型中将因素视为随机因素有什么好处?
我出于某些原因而无法接受将模型因子标记为随机变量的好处。在我看来,似乎在几乎所有情况下,最佳解决方案都是将所有因素视为固定的。 首先,固定与随机的区别是任意的。标准解释是,如果一个人对特定的实验单位本身感兴趣,则应使用固定效应,而如果一个人对实验单位所代表的种群感兴趣,则应使用随机效应。这没有太大帮助,因为这意味着即使数据和实验设计保持相同,也可以在固定视图和随机视图之间进行切换。同样,此定义引起一种错觉,即如果将因子标记为随机,则从模型得出的推论比将因子标记为固定的情况更适用于总体。最后,盖尔曼(Gelman)表明,固定随机的区别令人困惑 甚至在定义级别,因为还有四个关于固定效应和随机效应的定义。 其次,混合模型的估计非常复杂。与“纯固定”模型相反,有多种方法可以获取p值,在R的lme4程序包中实现REML估计的贝茨教授甚至拒绝完全报告p值。 。 第三,存在一个模糊的问题,即随机因素会引入多少个隐式参数。以下示例是我对Burnham&Anderson,“ 模型选择”和“多模型推理:一种实用的信息理论方法”的改编。从偏差方差折衷的角度来看,随机效应的作用可以说明如下。考虑采用处理和主因子效应的单向方差分析,其中是可估计的。错误项具有分布。如果观察次数固定,则随着的增加,偏差方差折衷将恶化。假设我们说ķ ķ - 1 Ñ(0 ,σ 2)ķ ķKKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal N(0, \sigma^2)KKKKKK主要效果来自分布。相应的模型将具有介于固定(过度拟合)版本和仅包含截距的欠拟合模型之间的复杂性。固定模型中有效参数的数量为N(0,σK)N(0,σK)\mathcal N(0, \sigma_K) 1intercept+(K−1)maineffects+1σ=K+1.1intercept+(K−1)maineffects+1σ=K+1.1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + 1 \:\:\sigma = K + 1. 随机模型中有效参数的数量至少为三个:。另外,随机模型具有许多“隐藏”参数,这些参数是对主要效果施加的分布(在这种情况下为正常)限制所隐含的。intercept,σ,σKintercept,σ,σK \mathrm{intercept}, \sigma, \sigma_K 尤其是,如果存在一个具有两个水平的因子,则将其称为随机是没有意义的,即使我们确定知道它的水平是从某些人群中随机抽样的也是如此。这是因为固定效果版本具有三个参数,而随机效果版本具有三个以上参数。在这种情况下,随机模型比固定版本具有更高的复杂性。显然,从固定版本到随机版本的切换更适合更大的KKK。但是,随机模型中“隐藏”参数的数量是未知的,因此无法根据信息标准(例如AIC)比较固定版本和随机版本。因此,尽管该示例阐明了随机效应的贡献(更好的偏差-方差权衡的可能性),但它也表明,很难说何时可以合理地将因子从固定重新标记为随机。 “完全固定”模型中没有上述问题。因此,我愿意问: 谁能提供一个示例,说明在使用随机因子(如固定因子)时发生了非常糟糕的事情吗?我认为应该进行一些模拟研究来明确解决该问题。 是否有行之有效的定量方法来决定何时从固定标签转换为随机标签?

3
何时使用固定效果与使用集群SE?
假设您具有单个数据横截面,其中个人位于组内(例如,学校内的学生),并且您希望估计以下形式的模型:Y_i = a + B*X_i其中X是个人水平特征和a常数的向量。 在这种情况下,假设未观察到的组间异质性会使您的点估计B及其SE产生偏差,因为它与您所关注的独立变量相关。 一种选择是按小组(学校)对SE进行聚类。另一个是要包括FE组。另一个是同时使用。在这些选项之间进行选择时应该考虑什么?尤其不清楚为什么要按组将SE聚类并使用FE组。在我的特定情况下,我有35个小组,每个小组中有5,000个人。我已经按照本pdf中的讨论进行了讨论,但是对于为什么以及何时可以同时使用群集SE和固定效果尚不清楚。 (请讨论集群式SE与FE的优缺点,而不是建议我只采用多层次模型。)

2
当在混合模型中将组视为随机与固定时,斜率估计存在很大差异
我了解,当我们相信某些模型参数在某些分组因子中随机变化时,我们会使用随机效应(或混合效应)模型。我希望拟合一个模型,该模型的响应已在分组因子上进行了归一化和居中(不完美,但非常接近),但是自变量x没有进行任何调整。这使我进行了以下测试(使用虚构数据),以确保如果确实存在,我会找到所需的效果。我运行了一个带有随机截距的混合效应模型(跨由定义的组f)和另一个以因子f作为固定效应预测因子的固定效应模型。我将R包lmer用于混合效果模型和基本函数lm()对于固定效果模型。以下是数据和结果。 请注意y,无论组如何,其变化都在0左右。并且该x变化与y组内的变化一致,但跨组的变化要大得多。y > data y x f 1 -0.5 2 1 2 0.0 3 1 3 0.5 4 1 4 -0.6 -4 2 5 0.0 -3 2 6 0.6 -2 2 7 -0.2 13 3 8 0.1 14 3 9 0.4 15 3 10 -0.5 -15 4 11 -0.1 -14 …

2
REML或ML比较具有不同固定效果但具有相同随机效果的两个混合效果模型?
背景: 注意:我的数据集和R代码包含在文本下方 我希望使用AIC比较使用R中的lme4包生成的两个混合效果模型。每个模型都有一个固定效果和一个随机效果。模型之间的固定效果不同,但模型之间的随机效果保持不变。我发现如果我使用REML = T,则model2的AIC分数较低,但是如果我使用REML = F,则model1的AIC分数较低。 支持使用ML: Zuur等。(2009年;第122页)建议“要比较具有嵌套固定效应(但具有相同随机结构)的模型,必须使用ML估计而不是REML。” 这向我表明我应该使用ML,因为两个模型的随机效果都相同,但是固定效果却不同。[Zuur等。2009。R.Springer的《混合效应模型和生态学扩展》。 支持使用REML: 但是,我注意到当我使用ML时,两个模型之间与随机效应相关的剩余方差有所不同(模型1 = 136.3;模型2 = 112.9),但是当我使用REML时,模型之间是相同的(模型1 =模型2 = 151.5)。这对我来说意味着我应该改为使用REML,以便具有相同随机变量的模型之间的随机残差保持相同。 题: 在固定效应改变而随机效应保持不变的模型比较中,使用REML比ML更有意义吗?如果不是,您能解释为什么还是将我指向其他能解释更多内容的文献吗? # Model2 "wins" if REML=T: REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T) REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T) AIC(REMLmodel1,REMLmodel2) summary(REMLmodel1) summary(REMLmodel2) # Model1 "wins" …

4
当所有可能性都包含在混合效应模型中时,固定效应与随机效应
在混合效应模型中,建议包括所有可能的水平(例如,男性和女性)时,使用固定效应来估计参数。如果所包含的水平只是人群中的随机样本(可能的患者中已入组的患者),并且您想估算人群的均值和方差而不是均值,则建议使用随机效应来解释变量各个因素水平。 我想知道您是否在逻辑上总是以这种方式使用固定效果。考虑一项关于脚/鞋的尺寸如何随着发育而变化并与身高,体重和年龄相关的研究。 Side小号一世dË{\rm Side}很显然,必须以某种方式将模型包括在模型中,以说明以下事实:多年来的测量值嵌套在给定的脚内并且不是独立的。此外,左右都是可能存在的所有可能性。另外,对于给定的参与者,他们的右脚大于(或小于)他们的左脚可能是非常正确的。但是,尽管所有人的脚之间的脚大小确实有所不同,但没有理由相信右脚平均会比左脚大。如果他们在您的样本中,那可能是由于您样本中的人的遗传因素所致,而不是右脚固有的原因。最后,sides一世dË{\rm side}似乎是多余参数,不是你真正关心的。 让我注意,我编造了这个示例。可能没有什么好处。只是为了传达想法。就我所知,要在古石器中生存,必须有一个大右脚和一个小左脚。 在这样的情况下,它将使(更多/更少/任何)感纳入sides一世dË{\rm side}模型作为随机效应?在这里使用固定效果与随机效果的利弊是什么?

4
如何改善对声誉对投票的影响的分析?
最近,我对声誉对投票的影响进行了一些分析(请参阅博客文章),随后我对可能更具启发性(或更合适)的分析和图表提出了一些问题。 所以有几个问题(可以随意回答任何人,而忽略其他人): 在当前的化身中,我并不是说要居中。我认为这样做是为了使散点图中出现负相关的错误外观,因为有更多的帖子发布到帖子数的较低端(您会在Jon Skeet面板中看到这种情况,仅在凡人用户中不会发生面板)。不以帖子的平均数为中心是否不合适(因为我的意思是以每位用户的平均分数为中心)? 从图中可以明显看出,分数高度偏右(并且平均居中没有任何改变)。在拟合回归线时,我同时拟合了线性模型和使用Huber-White砂纸的模型,该模型存在误差(通过rlmMASS R软件包提供),并且对斜率估计没有任何影响。我是否应该考虑对数据进行转换而不是进行稳健的回归?注意,任何转换都必须考虑0和负分数的可能性。还是应该使用其他类型的模型代替OLS来计数数据? 我相信一般而言,可以改进最后两个图形(并且也与改进的建模策略有关)。以我(厌倦的)观点,我怀疑声誉影响是否是真实的,它们会在海报的历史中很早就实现(我想如果是真的,这些可能会被重新考虑:“您给出了很好的答案,所以现在我将投票支持您所有的职位”而不是“以总分获得声誉”效果)。考虑到过度绘图,如何创建图形以证明这是否正确?我认为可能要证明这一点的一个好方法是适合表格的模型。 Y=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon 其中YYY是score - (mean score per user)(与当前散点图相同),X1X1X_1是post number,并且Z1⋯ZkZ1⋯ZkZ_1 \cdots Z_k是表示某个任意范围的帖子编号的虚拟变量(例如,如果帖子编号为,则Z1Z1Z_1等于Z如果帖子号为etc,则等于2。β 0和ε分别为隆重截距和误差项。然后,我会观察一下估计γ11 through 25Z2Z2Z_2126 through 50β0β0\beta_0ϵϵ\epsilonγγ\gamma确定是否在海报历史的早期(或以图形方式显示)声誉效应。这是合理(且适当)的方法吗? 像这样的散点图(例如黄土或样条线)适合使用某种类型的非参数平滑线,但是我对样条线的实验没有发现任何启发性的内容(在张贴者历史的早期,任何关于阳性效果的证据都是轻微而温和的)到我包含的样条线数量)。由于我有一个假设,即影响会在较早发生,因此我上面的建模方法是否比样条线更合理? 还要注意,尽管我已经疏通了所有这些数据,但是仍然有很多其他社区需要检查(还有一些类似的超级用户和serverfault可以借鉴类似的样本),因此在将来提出建议是很合理的我使用保留样本分析任何关系的分析。

4
如何在固定效果模型中保持时间不变变量
我有一家大型意大利公司10年以上员工的数据,我想看看随着时间的推移,男女收入差距中的性别差异是如何变化的。为此,我运行池OLS: ,其中y是每年的对数收入,X i t包括因个体和时间而异的协变量,d t是年份假人,如果工人是男性,则m a l e i等于1,否则为零。yit=X′itβ+δmalei+∑t=110γtdt+εityit=Xit′β+δmalei+∑t=110γtdt+εit y_{it} = X'_{it}\beta + \delta {\rm male}_i + \sum^{10}_{t=1}\gamma_t d_t + \varepsilon_{it} yyyXitXitX_{it}dtdtd_tmaleimalei{\rm male}_i 现在,我担心某些协变量可能与未观察到的固定效应相关。但是,当我使用固定效应(内部)估算器或初次差异时,我失去了性别虚拟对象,因为该变量不会随时间变化。我不想使用随机效应估计器,因为我经常听到人们说它提出的假设非常不现实,不太可能成立。 有什么方法可以同时保持性别虚拟和控制固定效果?如果有办法,我是否需要对性别变量的假设检验进行聚类或照顾其他带有错误的问题?

1
附带参数问题
我总是在努力获取偶发参数问题的真正实质。我读过几次,非线性面板数据模型的固定效果估计量可能由于“众所周知的”附带参数问题而严重偏倚。 当我要求对此问题进行清晰的解释时,典型的答案是:假设面板数据在T个时间段内有N个人。如果T是固定的,则随着N的增长,协变量估计将变得有偏差。发生这种情况的原因在于,随着N的增加,干扰参数的数量会快速增长。 我将不胜感激 更精确但仍然简单的解释(如果可能) 和/或我可以使用R或Stata进行计算的具体示例。

1
什么时候需要在回归模型中包括因变量的滞后,哪个滞后?
我们要用作因变量的数据如下所示(它是计数数据)。我们担心,由于它具有周期性成分和趋势结构,因此回归会以某种方式出现偏差。 如果有帮助,我们将使用负二项式回归。数据是一个平衡面板,每个人(状态)一个虚拟。所示图像显示了所有状态的因变量之和,但仅大多数状态具有类似的行为。我们正在考虑一种固定效应模型。因变量之间的相关性不是很高,研究的一部分是在这些变量之间找到一个意料之外的关系,因此弱关系实际上是件好事。 不包括因变量的滞后变量的确切风险是什么? 如果需要包括一个,是否有测试可以知道哪个。 正在R中执行。 注意:我确实阅读了这篇文章,但对我们的问题没有帮助。

3
固定/随机效应模型背后的概念
有人可以帮助我了解固定/随机效应模型吗?如果您已经消化了这些概念,则可以自己解释,也可以将我定向到具有特定地址(页码,章节等)的资源(书,笔记,网站),以便我可以毫无困惑地学习它们。 这是真的吗:“一般来说,我们有固定的影响,而具体情况是随机的”?如果描述从一般模型到具有固定和随机影响的特定模型,我将特别感谢您的帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.