Questions tagged «panel-data»

面板数据是指多维数据,经常涉及计量经济学中随时间的测量。在生物统计学中也称为纵向数据。


2
在纵向研究中,我是否应该为在随访中迷失的个体估算在时间2处得出的结果Y?
我在一个人样本中有2次重复测量。在第1时刻有18,000人,在第2时刻有13,000人(失去了5,000人的随访机会)。 我想对在时间1测量的一组预测变量X回归在时间2测量的结果Y(并且在时间1无法测量结果)。所有变量都缺少一些数据。大部分看起来相对随机,或者所观察到的数据似乎很好地描述了缺失。但是,结果Y中的绝大多数缺失是由于后续损失所致。我将使用多个插补(R :: mice),并将使用完整的数据集为X插补值,但是我收到了关于Y插补的2条相互矛盾的建议: 1)在18k的完整样本中从X和V(V =有用的辅助变量)估算Y。 2)不要将Y归因于因追踪而丢失的个体(因此将其从任何后续回归模型中删除)。 前者是有道理的,因为信息就是信息,所以为什么不全部使用它呢?但是后者以更直观的方式也很有意义-根据Y〜X + V估算5000人的结果,然后转回并估算Y〜X似乎是错误的。 哪个(更)正确? 前一个问题很有用,但并不能直接解决由于失去后续行动而造成的失踪(尽管答案可能是相同的;我不知道)。 结果变量的多重插补

2
测试人们在反复输球后是否退出比赛或降低赌注
我有关于每轮比赛后5轮消耗减少的一系列获胜和失败投注数据。我正在使用如下所示的决策树来显示数据。 往树顶的节点是那些有下注的节点,而往树底的那些节点是有下注的节点。我想看看(a)每个节点的损耗(b)每个节点的平均赌注大小变化。我正在查看前一个节点上每个节点的损耗率和存活率(如果概率为50%,则使用每个节点上的预期人数)。例如,如果每个节点的概率为50%,则在开始的1000个节点中,第二个节点W和L中应该有大约500个人。假设是(a)损失之后损耗率更高赌注(b)表示输家后减少赌注大小,赢家后增加赌注。 我只想首先在一个非常简单的单变量设置中执行此操作。如果有50个人退出,我如何执行t检验以显示从节点WW到节点WWW的平均下注大小的变化在统计上是显着的?我不确定这是正确的方法:每个后续下注都是独立的,但是人们在输家之后都退出比赛,因此样本不匹配。如果只是同一班同学一次又一次地参加一系列考试而又没有一个人辍学的情况,我会理解如何进行适当的t检验,但是我认为这有点不同。 我怎样才能做到这一点?此外,如果结果受到少数客户的歪曲,我该如何计算出前5%和后5%的收入?只是从下注1-3中删除累积赌注最高的客户? 我有从中生成该图的数据,所以在每个节点上都有平均值,std,std错误等。

3
重复测量结构方程建模
我需要分析临床康复数据的数据集。我对量化“输入”(治疗量)与健康状况变化之间由假设驱动的关系感兴趣。尽管数据集相对较小(n〜70),但我们有重复的数据反映了两者的时间变化。我熟悉R中的非线性混合效应建模,但是对此处输入和输出之间的潜在“因果”关系感兴趣,因此正在考虑SEM的重复测量应用 我希望您能就R中的任何SEM软件包(sam,lavaan,openmx?)最适合重复测量数据提出建议,尤其是针对教科书的建议(该领域是否有“ Pinheiro和Bates”?),我对此表示赞赏。 。

2
纵向数据:时间序列,重复测量或其他?
用简单的英语来说: 我有一个多元回归或ANOVA模型,但是每个人的响应变量都是时间的曲线函数。 如何确定哪个右侧变量导致曲线的形状或垂直偏移的显着差异? 这是时间序列问题,重复测量问题还是其他所有问题? 分析此类数据的最佳实践是什么(最好在中R,但我愿意使用其他软件)? 确切地说: 假设我有一个模型但实际上是从收集的一系列数据点在许多时间点,相同的个体被记录为数值变量。绘制数据表明,对于每个个体是时间的二次函数或周期性函数,其垂直偏移,形状或频率(在周期性情况下)可能极大地取决于协变量。协变量不会随时间变化-即,在数据收集期间,个体具有恒定的体重或治疗组。ÿ我Ĵ ķ= β0+ β1个X一世+ β2XĴ+ β3X一世XĴ+ ϵķÿ一世Ĵķ=β0+β1个X一世+β2XĴ+β3X一世XĴ+ϵķy_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kÿ我Ĵ ķÿ一世Ĵķy_{ijk}ķķkŤŤtÿ我Ĵ ķ 吨ÿ一世ĴķŤy_{ijkt} 到目前为止,我已经尝试了以下R方法: 马诺娃 Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...这里YT是一个矩阵,其列为时间点,在此示例中为10个,但在实际数据中则更多。 问题:这将时间视为一个因素,但是每个人的时间点并不完全匹配。此外,其中有许多是与样本大小相关的,因此模型变得饱和。似乎随时间变化的响应变量的形状被忽略了。 混合模型(如Pinheiro和Bates,S和S-Plus中的混合效应模型) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ...其中ID一个因素是按个人分组数据。在此示例中,响应随时间变化是周期性的,但是可以替代地存在二次项或其他时间函数。 …

1
如何处理固定效应模型中遗漏的虚拟变量?
我使用的是固定效应模型为我的面板数据(9岁,1000+ OBS),由于我的豪斯曼测试指示的值。当我为公司所包括的行业添加虚拟变量时,它们总是被忽略。我知道不同行业群体之间的DV(披露指数)差异很大。但是在使用Stata时,我无法在模型中使用它们。(Pr &gt; χ2)&lt; 0.05(P[R&gt;χ2)&lt;0.05(Pr>\chi^2)<0.05 有什么建议如何解决这个问题?又为什么省略它们?

2
在纵向研究中估计平均治疗效果的最佳方法是什么?
在一项纵向研究中,在时间点上重复测量了单位结果,总共有固定的测量时机(固定=单位测量同时进行)。我吨米Yitÿ一世ŤY_{it}i一世itŤtm米m 将单位随机分配给治疗或对照组。我想估计和测试平均治疗效果,即其中期望是跨时间和跨个人的。为此,我考虑使用固定时间的多层次(混合效果)模型:G = 0 A T E = E (Y | G = 1 )− E (Y | G = 0 ),G=1G=1个G=1G=0G=0G=0ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yit=α+βGi+u0i+eitYit=α+βGi+u0i+eitY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} 与截距,的,横跨单元的无规截距,和残留。β 甲Ť é ù ëαα\alphaββ\betaATEATEATEuuueee 现在我正在考虑替代模型 Yit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itYit=β~Gi+∑j=1mκjdiĴ+∑Ĵ=1个米γĴd一世ĴG一世+ü〜0一世+Ë〜一世ŤY_{it} = \tilde{\beta} G_i + \sum_{j=1}^m …


2
具有纵向数据的SVM回归
我每个患者大约有500个变量,每个变量都有一个连续值,并在三个不同的时间点(两个月后和一年后)进行测量。通过回归,我想预测新患者的治疗结果。 是否可以对此类纵向数据使用SVM回归?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
面板研究中时间序列中缺失计数数据的多重估算
我正在尝试解决一个涉及面板数据研究中缺失数据的估算的问题(不确定我是否正确使用了“面板数据研究”,正如我今天所学到的那样。)我拥有2003年的总死亡计数数据到2009年,所有8个地区和4个年龄段的男性和女性的所有月份。 数据框看起来像这样: District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ 106 …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.