Questions tagged «panel-data»

面板数据是指多维数据,经常涉及计量经济学中随时间的测量。在生物统计学中也称为纵向数据。

5
计量经济学中的“随机效应模型”与计量经济学之外的混合模型有何关系?
我曾经认为计量经济学中的“随机效应模型”对应于计量经济学之外的“带有随机截距的混合模型”,但是现在我不确定。可以? 计量经济学使用的“固定效应”和“随机效应”等术语与混合模型的文献有些不同,这引起了众所周知的混乱。让我们考虑一个简单的情况,其中yyy线性依赖于xxx但是在不同的测量组中截距不同: yit=βxit+ui+ϵit.yit=βxit+ui+ϵit.y_{it} = \beta x_{it} + u_i + \epsilon_{it}. 在这里,每个单位/组iii在不同的时间点观察到ttt。计量经济学家称其为“面板数据”。 在混合模型术语中,我们可以将uiuiu_i视为固定效应或随机效应(在这种情况下,它是随机截距)。把它当作固定装置嵌合β和ü我以最小化均方误差(即运行OLS回归与虚设组变量)。处理它,我们还假定作为随机手段ü 我〜Ñ(Û 0,σ 2 ù),并使用最大可能性,以适应ü 0和σ 2 Ù代替各嵌合ù 我β^β^\hat \betau^iu^i\hat u_iui∼N(u0,σ2u)ui∼N(u0,σu2)u_i\sim\mathcal N(u_0,\sigma^2_u)u0u0u_0σ2uσu2\sigma^2_uuiuiu_i在其自己的。这导致“局部集中”的效应,其中估计ü我得到朝缩水它们的平均ü 0。u^iu^i\hat u_iu^0u^0\hat u_0 R formula when treating group as fixed: y ~ x + group R formula when treating group as random: y ~ x + (1|group) …


4
R中的标准错误聚类(手动或plm)
我试图理解标准错误“聚类”以及如何在R中执行(在Stata中是微不足道的)。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。 我可以使用任一虚拟变量进行固定效果 > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

1
如何解释混合效应模型中随机效应的方差和相关性?
希望大家都不要介意这个问题,但是我需要帮助解释线性混合效果模型输出的输出,这是我一直试图在R中学习做的事情。我是纵向数据分析和线性混合效果回归的新手。我有一个模型,我将几周作为时间预测器,并在就业课程中得分作为结果。我用几周(时间)和几个固定影响,性别和种族对分数建模。我的模型包括随机效应。我需要帮助来了解方差和相关性的含义。输出如下: Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相关系数是.231。 我可以将相关性解释为星期与分数之间存在正相关关系,但我希望能够用“ ...的23%”来表述。 我非常感谢您的帮助。 感谢“来宾”和Macro的答复。抱歉,由于没有回复,我参加了一次会议,现在正在追赶。这是输出和上下文。 这是我运行的LMER模型的摘要。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
Calinski&Harabasz(CH)准则的可接受值是多少?
我已经进行了数据分析,试图使用R和kml包对纵向数据进行聚类。我的数据包含约400条单独的轨迹(在本文中称为)。您可以在下图中看到我的结果: 阅读相应论文中的第2.2章“选择最佳数量的群集”后,我没有得到任何答案。我希望有3个簇,但CH仍为80时结果仍然可以。实际上,我什至不知道CH值代表什么。 所以我的问题是,Calinski&Harabasz(CH)准则的可接受值是多少?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
样条曲线可以用于预测吗?
我无法具体说明数据的性质,因为它是专有的,但是假设我们有这样的数据:每个月都有一些人注册一项服务。然后,在随后的每个月中,这些人可能会升级服务,中止服务或拒绝服务(例如,由于无法付款)。对于最早的数据,我们有大约2年的数据(24个月)。 每个月加入的人数很多(在100,000个范围内),而做这三件事中的任何一个的人数都在数千。但是,我们没有使用单个级别的数据(可能是数百万行),而是按月份和同类群组(每个同类群组每个月做某事的比例)汇总的数据。 我们一直在使用多元自适应回归样条(MARS)对现有数据进行建模,并发现一些有趣的结果。 但是,我担心使用这些推断或预测未来。我担心的是,对未来的预测必然超出样本空间(就时间而言),样条曲线可能会变得不稳定以进行外推。 这是合法方法吗?有什么问题可以解决?

2
指定具有多个时间段的差异模型中的差异
当我估算两个时间段的差异模型的差异时,等效回归模型为 一种。 Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} 其中TreatmentTreatmentTreatment是一个虚设它等于1,如果观察是从治疗组 和 ddd是伪,其等于1的时间段发生处理后 因此,该公式采用以下值。 对照组,治疗前:αα\alpha 对照组,治疗后:α+λα+λ\alpha +\lambda 治疗组,治疗前:α+γα+γ\alpha +\gamma 治疗组,治疗后: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta 因此,在两周期模型中,差异估计的差异为δδ\delta。 但是,如果我有多个治疗前后,关于d_t会发生什么dtdtd_t?我仍然使用假人来指示一年是在治疗之前还是之后? 还是在不指定每年是否属于治疗前或治疗后期间的情况下添加年份假人?像这样: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} 还是可以同时包含两者(即ÿË 一个[R dü 中号米ÿ+ λ dŤyeardummy+λdtyeardummy +\lambda d_t)? C。ÿ我小号Ť= α + γs* …

1
即使在具有适当相关结构的模型中,自相关残差模式仍然存在吗?如何选择最佳模型?
语境 该问题使用R,但与一般统计问题有关。 我正在分析死亡率因素(由于疾病和寄生虫引起的死亡率百分比)对蛾类种群随时间推移的增长率的影响,其中每年从12个地点采样幼虫种群,为期8年。人口增长率数据显示出随时间变化的清晰但不规则的周期性趋势。 一个简单的广义线性模型的残差(增长率〜%疾病+%寄生病+年)随着时间的推移显示出相似的清晰但不规则的周期性趋势。因此,同样形式的广义最小二乘模型也适用于具有适当相关结构的数据,以处理时间自相关,例如复合对称性,自回归过程阶数1和自回归移动平均相关结构。 所有模型均包含相同的固定效果,使用AIC进行比较,并通过REML进行拟合(以允许通过AIC比较不同的相关结构)。我正在使用R软件包nlme和gls函数。 问题1 当相对于时间绘制时,GLS模型的残差仍显示几乎相同的周期性模式。即使在精确说明自相关结构的模型中,这种模式也会一直存在吗? 我在第二个问题下面模拟了R中的一些简化但相似的数据,该问题基于我目前对评估模型残差中的时间自相关模式所需的方法的了解而显示,现在我知道这是错误的(请参阅答案)。 问题2 我已经为GLS模型拟合了所有可能的合理相关结构,但是实际上没有一个比没有任何相关结构的GLM更好:只有一个GLS模型略胜一筹(AIC分数= 1.8低),而其余所有模型更高的AIC值。但是,只有当所有模型都由REML拟合时才是这种情况,而GLS模型显然要好得多,而不是ML,但是我从统计资料中了解到,出于某些原因,您只能使用REML来比较具有不同相关结构和相同固定效果的模型我不会在这里详述。 鉴于数据具有明显的时间自相关性质,如果没有模型比简单的GLM更好,那么假设我使用的是合适的方法,那么最合适的方法来决定使用哪个模型进行推断(我最终想使用AIC比较不同的变量组合)? Q1“模拟”探索具有和没有适当相关结构的模型中的残差模式 生成具有“时间”的循环效应和“ x”的正线性效应的模拟响应变量: time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) y应该在“时间”上显示出具有随机变化的周期性趋势: plot(time,y) 与带有随机变化的'x'的正线性关系: plot(x,y) 创建一个简单的线性加法模型“ y〜time + x”: require(nlme) m1 <- gls(y ~ time + x, method="REML") 如预期的那样,该模型在针对“时间”绘制时,在残差中显示出清晰的周期性模式: plot(time, m1$residuals) …

4
术语“时间序列分析”和“纵向数据分析”之间有什么区别
在谈论纵向数据时,我们可能会重复引用从同一主题/研究单位随时间收集的数据,因此,同一主题内的观察存在相关性,即主题内相似度。 在谈论时间序列数据时,我们还引用了一系列时间收集的数据,这似乎与上述纵向设置非常相似。 我想知道是否有人可以在这两个术语之间提供清晰的说明,它们之间的关系是什么,区别是什么?

1
如何分析纵向计数数据:在GLMM中考虑时间自相关?
您好统计大师和R编程向导, 我对将动物捕获建模为环境条件和一年中的一天感兴趣。作为另一项研究的一部分,我统计了三年中约160天的捕获次数。在这几天的每一天,我都会获得温度,降雨,风速,相对湿度等信息。由于是从相同的5个地块重复收集数据,因此我将其用作随机效应。 我的理解是,nlme可以轻松解决残差中的时间自相关,但不能处理lme4这样的非高斯链接函数(无法处理自相关吗?)。目前,我认为在log(count)的R中使用nlme包可能会起作用。所以我现在的解决方案是运行类似的命令: m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random = ~1|plot, correlation = corARMA(p = 1, q = 1, form = ~DOY|plot), data = Data) DOY =一年中的一天。最终模型中可能会有更多的交互,但这是我的基本想法。我也可能尝试用类似的方法进一步对方差结构建模 weights = v1Pow 我不确定Poisson混合模型回归或其他方法是否有更好的方法?我刚刚在Kedem和Fokianos的“时间序列分析的回归模型”的第4章中找到了数学讨论。目前,这超出了我一点,尤其是在应用程序中(用R编码)。我在Zuur等人中也看到了MCMC解决方案。BUGS语言的混合效果模型书(Chp 23)(使用winBUGS或JAG)。那是我最好的选择吗?R中是否有一个简单的MCMC软件包可以解决这个问题?我不太了解GAMM或GEE技术,但是如果人们认为他们可以提供更好的见解,我将愿意探索这些可能性。我的主要目标是创建一个模型,以在给定环境条件下预测动物的捕获量。其次,我想解释一下动物对它们活动的反应。 任何关于最佳处理方式(从哲学上),如何在R或BUGS中进行编码的想法都将受到赞赏。我是R和BUGS(winBUGS)的新手,但正在学习。这也是我第一次尝试解决时间自相关。 谢谢,丹

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
“混合效应模型”和“潜在增长模型”之间有什么区别?
我对混合效应模型(MEM)非常熟悉,但是一位同事最近问我如何将其与潜在增长模型(LGM)进行比较。我做了一些谷歌搜索,看来LGM是结构方程模型的一种变体,适用于在至少一个随机效应的每个级别内获得重复测量的情况,从而使时间成为模型中的固定效应。否则,MEM和LGM看起来很相似(例如,它们都允许探索不同的协方差结构等)。 我是否认为LGM在概念上是MEM的特例,还是两种方法在其假设或评估不同类型理论的能力方面存在差异?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.