Questions tagged «panel-data»

面板数据是指多维数据,经常涉及计量经济学中随时间的测量。在生物统计学中也称为纵向数据。

5
时间序列计量经济学和面板数据计量经济学有什么区别?
这个问题可能很幼稚,但是如果时间序列方法和面板数据方法之间存在差异,那么我对计量经济学的教学方式就会感到困惑。 关于时间序列,我涵盖了诸如协方差平稳,AR,MA等主题。关于面板数据,我只看到了固定效应与随机效应(或更笼统地说是分层模型),差异-差异等 这些主题是否在某些方面相关?由于面板数据也具有时间维度,因此为什么也没有讨论AR,MA等问题? 如果答案是我对面板方法的教育还远远不够,那么您能指出一本书不仅仅涉及FE / RE和差异吗?

1
什么时候需要在回归模型中包括因变量的滞后,哪个滞后?
我们要用作因变量的数据如下所示(它是计数数据)。我们担心,由于它具有周期性成分和趋势结构,因此回归会以某种方式出现偏差。 如果有帮助,我们将使用负二项式回归。数据是一个平衡面板,每个人(状态)一个虚拟。所示图像显示了所有状态的因变量之和,但仅大多数状态具有类似的行为。我们正在考虑一种固定效应模型。因变量之间的相关性不是很高,研究的一部分是在这些变量之间找到一个意料之外的关系,因此弱关系实际上是件好事。 不包括因变量的滞后变量的确切风险是什么? 如果需要包括一个,是否有测试可以知道哪个。 正在R中执行。 注意:我确实阅读了这篇文章,但对我们的问题没有帮助。

3
R包用于固定效果逻辑回归
我正在寻找一个R使用Chamberlain的1980年估计量来估计具有单独固定效应(个体截距)的logit模型系数的软件包。它通常被称为张伯伦的固定效应logit估计器。 在处理二进制结果面板数据(至少在计量经济学中)时,这是一个经典的估算器,但我只是在CRAN中找不到与之相关的任何信息。 有什么线索吗?

3
如何为纵向大数据建模?
传统上,我们使用混合模型来建模纵向数据,例如: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 我们可以假设不同人的随机截距或斜率。但是,我要解决的问题将涉及庞大的数据集(数百万人,每天进行1个月的观测,即每个人将进行30次观测),目前我不知道是否有软件包可以完成此级别的数据。 我可以使用spark / mahout,但它们不提供混合模型,我的问题是,是否仍然可以修改数据以便可以使用RandomForest或SVM对此数据集进行建模? 我可以利用任何功能工程技术来帮助RF / SVM解决自相关问题吗? 非常感谢! 一些潜在的方法,但我没有时间把它们写成火花 如何将随机效果纳入randomForest 具有纵向数据的SVM回归

6
面板数据与混合模型之间的差异
我想知道面板数据分析和混合模型分析之间的区别。据我所知,面板数据和混合模型都使用固定和随机效应。如果是这样,为什么它们有不同的名称?还是它们的同义词? 我阅读了以下文章,其中描述了固定,随机和混合效应的定义,但并不能完全回答我的问题:固定效应,随机效应和混合效应模型之间有什么区别? 如果有人可以向我介绍有关混合模型分析的简短参考(约200页),我也将不胜感激。补充一点,无论软件处理如何,我都希望使用混合建模参考。主要是混合建模的理论解释。

3
分析纵向数据集时使用aov()和lme()有什么区别?
谁能告诉我使用aov()和lme()分析纵向数据之间的区别,以及如何解释这两种方法的结果? 下面,我使用aov()和分析相同的数据集,lme()并得到2个不同的结果。使用时aov(),我在治疗交互作用的时间上得到了显着的结果,但是在拟合线性混合模型时,通过治疗交互作用的时间是无关紧要的。 > UOP.kg.aov <- aov(UOP.kg~time*treat+Error(id), raw3.42) > summary(UOP.kg.aov) Error: id Df Sum Sq Mean Sq F value Pr(>F) treat 1 0.142 0.1421 0.0377 0.8471 Residuals 39 147.129 3.7725 Error: Within Df Sum Sq Mean Sq F value Pr(>F) time 1 194.087 194.087 534.3542 < 2e-16 *** time:treat 1 2.077 …

4
倾向得分与面板数据匹配
我有个人的纵向数据集,其中一些人接受了治疗,而其他人则没有。从出生到18岁的所有个体都在样本中,并且治疗发生在该范围内的某个年龄。治疗的年龄可能因病例而异。使用倾向得分匹配,我想将治疗的和对照组的配对成对地匹配到出生年份,这样我就可以追踪从出生到18岁的每一对。总共有大约150个治疗和4000个未治疗的个体。匹配后,想法是使用差异策略来估计治疗效果。 我目前面临的问题是与面板数据进行匹配。我正在使用Stata的psmatch2命令,并且使用倾向得分匹配来匹配家庭和个人特征。通常,面板数据在每个年龄段都会有不同的最佳匹配。例如:如果治疗A,B和C是对照,并且他们都出生于1980年,那么A和B可能在1980年匹配到0岁,而A和C则在1981年匹配到1岁,依此类推。 。另外,A可能与其前几年的自身预处理值匹配。 为了解决这个问题,我取了所有随时间变化的变量的平均值,以便匹配可以识别在样本期间平均而言最相似的个人,并且我针对0至18岁的每个年龄段分别进行匹配。不幸的是,这仍然将不同的控制单元与每个年龄组的每个治疗单元匹配。 如果有人可以指导我找到一种与Stata中的面板数据进行成对匹配的方法,将不胜感激。

1
面板数据模型中一组内的标准化因变量?
在识别组中对因变量进行标准化是否有意义? 以下工作文件(法律亚马逊地区的森林砍伐放缓;价格或政策?,pdf)使用标准化的因变量来分析巴西总体政策变化对森林砍伐的影响。 标准化按如下方式完成: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 作者认为,这是为了“考虑市政当局内森林砍伐增量的相对变化”。作者特此使用面板数据的有限元估计(第12页)。新法律出台后的每一年都应包括一个后政策假人。 如果以这种方式标准化因变量,应该如何解释系数? 标准化不是非正统的吗,因为它为群体/市镇随时间变化较小的观测值提供了更高的价值?

2
是否有用于连续时间纵向二进制响应的R包?
该bild软件包似乎是用于串行二进制响应的出色软件包。但这是离散时间。我想为时间响应的平滑函数指定电流响应Y的比值比对与在较早时间测量的二进制响应,或者至少是一阶马尔可夫版本。我相信这称为交替逻辑回归。有谁知道R包可以处理连续时间,即测量时间可以在任何后续时间进行吗?我不需要模型中的随机效应。

4
R / Stata软件包用于零截断的负二项式GEE?
这是我的第一篇文章。我非常感谢这个社区。 我正在尝试分析被零截断的纵向计数数据(响应变量= 0的概率为0)和均值=方差,因此在泊松上选择了负二项式分布。 我排除的功能/命令: [R R中的gee()函数不考虑零截断或负二项式分布(即使加载了MASS包也不) R中的glm.nb()不允许使用不同的相关结构 VGAM软件包中的vglm()可以利用正负二项式族,但它与Stata的ztnb命令(请参见下文)存在相同的问题,因为我无法使用非独立的相关结构来重新拟合模型。 斯塔塔 如果数据不是纵向的,那么我可以使用Stata包ztnb来运行分析,但是该命令假定我的观察是独立的。 由于各种方法论/哲学上的原因,我也排除了GLMM。 现在,我已经开始考虑Stata的xtgee命令(是的,我知道xtnbreg也会做同样的事情),该命令既考虑了非独立相关结构又考虑了负二项式族,但没有考虑零截断。使用xtgee的另一个好处是,我还可以计算qic值(使用qic命令)来确定响应变量的最佳拟合相关结构。 如果R或Stata中有一个程序包/命令可以考虑1)宾果式族,2)GEE和3)零截断,我想知道。 我非常感谢您可能有任何想法。谢谢。 -凯西

2
面板数据的机器学习算法
在这个问题中- 是否有一种考虑结构化/分层/多级预测变量的构造决策树的方法?-他们提到了树木的面板数据方法。 是否有支持矢量机和神经网络的特定面板数据方法?如果是这样,您能否引用一些有关算法和实现它的R包的文章?

2
各个级别面板数据之间的差异
用单个级别面板数据指定差异模型中差异的正确方法是什么? 这里是设置:假设我在城市中嵌入了多年的个人级别面板数据,并且处理方式在城市年份级别上有所不同。形式上,让为个别的结果在城市和年和对是否干预影响城市的虚拟在一年。典型的DiD估算器(例如Bertrand等人(2004,第250页)中概述的估算器)基于简单的OLS模型,其中具有针对城市和年份的固定影响项:我小号吨d 小号吨小号吨ÿ我小号Ťÿ一世sŤy_{ist}一世一世isssŤŤtd小号ŤdsŤD_{st}sssŤŤt yist=As+Bt+cXist+βDst+ϵistÿ一世sŤ=一种s+乙Ť+CX一世sŤ+βdsŤ+ϵ一世sŤ y_{ist} = A_{s} + B_t + cX_{ist} + \beta D_{st} + \epsilon_{ist} 但是,该估计量是否忽略了个人层面的面板结构(即,对城市中每个人的多次观察)?用个体水平的固定效应项扩展该模型是否有意义?许多DiD应用程序使用重复的横截面数据,而没有单独级别的面板数据。Si小号一世S_i Bertrand,Marianne,Esther Duflo和Sendhil Mullainathan。2004年。“我们应该相信差异差异估计有多少?” 经济学季刊119(1):249–75。

2
为什么使用横截面数据来推断/预测纵向变化是一件坏事?
我正在寻找希望存在的论文,但不知道是否存在。这可能是一组案例研究,和/或概率论的一个论据,关于为什么使用横截面数据来推断/预测纵向变化可能是一件坏事(即不一定如此,但可以如此)。 我已经从很多方面看到了这个错误:有人推断,由于英国的富人出行更多,所以随着社会的富裕起来,整个人口的出行也将增加。事实证明,这种推论在很长一段时间内都是不正确的-超过十年。这与家庭用电情况类似:横截面数据表明随着收入的增加而大量增加,这种增加不会随着时间的推移而显现。 有几件事发生,包括队列效应和供应方约束。 拥有一个参考文献来汇编这样的案例研究将非常有用;和/或使用概率论来说明为什么使用横截面数据来推断/预测纵向变化会产生非常非常的误导。 是否存在这样的论文,如果存在,那是什么?

1
面板/纵向数据的预测评估指标
我想评估几种不同的模型,这些模型可以每月提供行为预测。数据是平衡的, 100,000, 12。结果是在给定的月份参加音乐会,因此在任何月份中〜80%的人都为零,但是用户量很大,右尾长长。我的预测似乎并不尊重结果的计数性质:小规模音乐会很普遍。T =n=n=n=T=T=T= 我对模型一无所知。我每个人每个月只观察6种不同的黑匣子预测。我确实有额外的一年数据,模型制作者没有估算的数据(尽管一致参加者保持不变),我想评估每个数据在哪里表现良好(就准确性和准确性而言)。例如,某些模型对经常参加音乐会的人是否有很好的预测,但对沙发土豆却没有用?一月份的预测好于十二月的预测吗?另外,很高兴知道这些预测使我能够根据实际情况对人进行正确排名,即使无法相信确切的幅度。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 我的第一个想法是对预测的和时间的虚拟变量进行实际的固定效应回归,并查看每个模型的RMSE或。但这不能回答有关每个模型在哪里运行良好或差异是否显着的问题(除非我引导RMSE)。结果的分布也让我担心这种方法。R2R2R^2 我的第二个想法是将结果分为0、1-3和3+,然后计算混淆矩阵,但这会忽略时间维度,除非我将其设为12。这也很粗糙。 我知道concordTJ Steichen和NJ Cox所提供的Stata命令,它们可以by()选择,但是这需要将数据压缩到年度总数中。这将在其他有用的统计数据中,使用置信区间计算Lin的Concordance相关指数。CCC的范围是-1至1,完美的一致性为1。 还有Harrell的(由R. Newson 计算 ),可以选择,但是我不确定这是否允许我处理面板数据。这为您提供了置信区间。Harrell c是连续结果的ROC曲线(AUC)下面积的概括。它是可以排序的所有对的比例,以使具有较高预测值的对象实际上具有较高的结局。因此,对于随机预测,,对于完全区分的模型,。参见哈雷尔的书,第493页c = 0.5 c = 1cccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 您将如何解决这个问题?您是否建议计算预测中常见的统计数据(如MAPE)? 到目前为止发现的有用的东西: 幻灯片上的林的一致性相关系数的重复测量版本

2
如何在纵向数据中找到分组(轨迹)?
语境 我想先设定一下场景,然后再扩展问题。 我有纵向数据,大约每3个月对受试者进行一次测量,主要结果是数值(从连续到1dp),范围是5到14,(所有数据点的)大部分在7到10之间。意大利面条图(x轴上有年龄,每个人都有一条线),因为我有超过1500名受试者,这显然是一团糟,但是随着年龄的增长,向更高的价值迈进了明显的步伐(这是众所周知的)。 更广泛的问题是:我们想做的是首先能够确定趋势组(开始时高并保持高位,开始时低并保持低位,开始时低并增加到高位等),然后我们可以查看与“趋势组”成员资格相关的个人因素。 我在这里的问题专门针对第一部分,即按趋势分组。 题 我们如何对单个纵向轨迹进行分组? 哪种软件适合执行此操作? 我正在研究一位同事建议的SAS和M-Plus中的Proc Traj,但我想知道其他人对此有何想法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.