Questions tagged «stata»

统计软件包。对于(a)涉及Stata作为问题的关键部分或预期答案的任何主题问题,请使用此标签;&(b)不仅仅是关于如何使用Stata的问题。

4
R / Stata软件包用于零截断的负二项式GEE?
这是我的第一篇文章。我非常感谢这个社区。 我正在尝试分析被零截断的纵向计数数据(响应变量= 0的概率为0)和均值=方差,因此在泊松上选择了负二项式分布。 我排除的功能/命令: [R R中的gee()函数不考虑零截断或负二项式分布(即使加载了MASS包也不) R中的glm.nb()不允许使用不同的相关结构 VGAM软件包中的vglm()可以利用正负二项式族,但它与Stata的ztnb命令(请参见下文)存在相同的问题,因为我无法使用非独立的相关结构来重新拟合模型。 斯塔塔 如果数据不是纵向的,那么我可以使用Stata包ztnb来运行分析,但是该命令假定我的观察是独立的。 由于各种方法论/哲学上的原因,我也排除了GLMM。 现在,我已经开始考虑Stata的xtgee命令(是的,我知道xtnbreg也会做同样的事情),该命令既考虑了非独立相关结构又考虑了负二项式族,但没有考虑零截断。使用xtgee的另一个好处是,我还可以计算qic值(使用qic命令)来确定响应变量的最佳拟合相关结构。 如果R或Stata中有一个程序包/命令可以考虑1)宾果式族,2)GEE和3)零截断,我想知道。 我非常感谢您可能有任何想法。谢谢。 -凯西

3
Mundlak固定效应程序是否适用于假人的逻辑回归?
我有一个包含8000个聚类和400万个观测值的数据集。不幸的是xtlogit,即使使用10%的子样本,我的统计软件Stata在使用其面板数据函数进行logistic回归时运行也相当缓慢。 但是,使用非面板logit功能时,结果会更快出现。因此,我可能会受益于使用logit修正后的数据来解决固定效应。 我相信该程序是“ Mundlak固定效应程序”的创造(Mundlak,Y。1978年。时间序列和横截面数据的合并。Econometrica,46(1),69-85)。 我在Antonakis,J.,Bendahan,S.,Jacquart,P.,&Lalive,R.(2010)的论文中找到了对此过程的直观解释。关于提出因果主张:审查和建议。《领导力季刊》 21(6)。1086-1120。我引用: 解决遗漏固定效应问题并仍然包含2级变量的一种方法是将所有1级协变量的聚类均值包括在估计模型中(Mundlak,1978)。聚类平均值可以作为回归变量包括在内,也可以从1级协变量中减去(即聚类平均居中)。聚类均值在聚类内是不变的(并且在聚类之间有所不同),并且允许对一级参数进行一致的估计,就像已包含固定效应一样(参见Rabe-Hesketh和Skrondal,2008年)。 因此,聚类平均居中似乎是解决我的计算问题的理想选择。但是,这些论文似乎是针对线性回归(OLS)的。 这种聚类平均居中的方法是否也适用于“复制”固定效应二进制逻辑回归? 一个更技术性的问题应该得出相同的答案:当数据集B是数据集A的均值中心版本时,数据集A是否xtlogit depvar indepvars, fe等于logit depvar indepvars数据集B? 我在这种聚类均值居中发现的另一个困难是如何应对假人。由于虚拟变量为0或1,它们在随机效应和固定效应回归中是否相同?他们不应该“居中”吗?

1
如何在Stata中使用工具化交互作用项进行工具变量回归?
我在Stata语法上有问题。我需要进行以下回归: y=ax+bz+c(xz)+ey=ax+bz+c(xz)+ey = ax + bz + c(xz) + e 其中和均已检测,并且交互项使用和的检测值。xxxzzzxzxzxzxxxzzz 仅生成和的预测值并将其用作回归变量会产生不正确的标准误差。xxxzzz 编辑:我还需要只对其中一个变量进行检测,并将其中一个变量作为交互项进行类似的回归。

3
用于多层建模的说明性数据集和分析
我最近参加了有关多级建模的入门课程。我们使用的大多数数据集和示例均来自社会科学。我刚刚在生物统计学部门进行了为期2周的实习,他们希望我在医院之间以及5年以上的高死亡率的紧急情况下,开展有关患者结局水平变化的项目,以应对这种情况。时间跨度。我将从下周开始实习,我希望能找到一本书或在线资源,其中已经进行了类似的分析(最好是使用R,Stata或MLwiN),最好是它们可以为读者提供数据集。任何链接将是最欢迎的。 编辑:我将使用详细记录患者住院治疗所有已记录方面的数据集。感兴趣的主要结果是入院后30天内死亡。

1
哪种是网络荟萃分析的最佳方法?
现在有几种不同的方法可以进行网络荟萃分析或混合治疗比较。 最常用和可访问的可能是以下几种: 在贝叶斯框架中: WinBUGS中的按处理设计交互方法(例如Jackson等); WinBUGS中基于手臂的分层贝叶斯建模(例如Zhao等); 分层对比度为基础(即,节点分裂)贝叶斯建模,无论是与WinBUGS软件或通过gemtc与rjags在R(例如Dias等或货车Valkenhoef等人); WinBUGS中的集成嵌套拉普拉斯近似(INLA)(例如Sauter等); 在常客框架中: SAS的因子分析方差分析(例如Piepho); SAS中的多层次网络荟萃分析(例如Greco等); mvmeta在Stata或R中的多元元回归(例如White等); lme和netmetaR中进行网络荟萃分析(例如Lumley,但仅限于两臂试验,或Rucker等)。 我的问题很简单:它们大致相等还是在大多数情况下更适合进行主要分析(因此将其他保留为辅助分析)? 更新 一段时间以来,对网络元分析的方法进行了一些比较分析: Carlin BP,Hong H,Shamliyan TA,Sainfort F,Kane RL。案例研究比较贝叶斯方法和常见方法进行多次治疗比较。医疗保健研究与质量局(美国)。2013。

3
为什么要使用滞后DV作为工具变量?
我继承了一些数据分析代码,尽管我不是计量经济学家,但我一直难以理解。一个模型使用以下Stata命令运行工具变量回归 ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) 该数据集是一个针对该组变量具有多个顺序观察值的面板。 为什么此代码将DV的滞后值用作工具?据我了解(从深入研究旧教科书中),当由于回归变量与误差项相关而出现问题时,使用了IV估计。但是,没有提到选择DV的滞后作为工具。 此行代码的注释中提到“因果关系”。欢迎大家弄清楚这里的目标是什么。

1
在聚类分析中为变量分配权重
我想在聚类分析中为变量分配不同的权重,但是我的程序(Stata)似乎对此没有选择,所以我需要手动进行操作。 想象一下4个变量A,B,C,D。这些变量的权重应为 w(A)=50% w(B)=25% w(C)=10% w(D)=15% 我想知道以下两种方法之一是否真的可以解决问题: 首先,我将所有变量标准化(例如,按其范围)。然后,我将每个标准化变量与其权重相乘。然后进行聚类分析。 我将所有变量与其权重相乘,然后对其进行标准化。然后进行聚类分析。 还是两个想法都是完全废话? [编辑] 我希望使用的聚类算法(我尝试了3种不同的算法)是k均值,加权平均链接和平均链接。我计划使用加权平均链接来确定大量簇,然后将它们插入k均值。
12 clustering  stata 

1
面板/纵向数据的预测评估指标
我想评估几种不同的模型,这些模型可以每月提供行为预测。数据是平衡的, 100,000, 12。结果是在给定的月份参加音乐会,因此在任何月份中〜80%的人都为零,但是用户量很大,右尾长长。我的预测似乎并不尊重结果的计数性质:小规模音乐会很普遍。T =n=n=n=T=T=T= 我对模型一无所知。我每个人每个月只观察6种不同的黑匣子预测。我确实有额外的一年数据,模型制作者没有估算的数据(尽管一致参加者保持不变),我想评估每个数据在哪里表现良好(就准确性和准确性而言)。例如,某些模型对经常参加音乐会的人是否有很好的预测,但对沙发土豆却没有用?一月份的预测好于十二月的预测吗?另外,很高兴知道这些预测使我能够根据实际情况对人进行正确排名,即使无法相信确切的幅度。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 我的第一个想法是对预测的和时间的虚拟变量进行实际的固定效应回归,并查看每个模型的RMSE或。但这不能回答有关每个模型在哪里运行良好或差异是否显着的问题(除非我引导RMSE)。结果的分布也让我担心这种方法。R2R2R^2 我的第二个想法是将结果分为0、1-3和3+,然后计算混淆矩阵,但这会忽略时间维度,除非我将其设为12。这也很粗糙。 我知道concordTJ Steichen和NJ Cox所提供的Stata命令,它们可以by()选择,但是这需要将数据压缩到年度总数中。这将在其他有用的统计数据中,使用置信区间计算Lin的Concordance相关指数。CCC的范围是-1至1,完美的一致性为1。 还有Harrell的(由R. Newson 计算 ),可以选择,但是我不确定这是否允许我处理面板数据。这为您提供了置信区间。Harrell c是连续结果的ROC曲线(AUC)下面积的概括。它是可以排序的所有对的比例,以使具有较高预测值的对象实际上具有较高的结局。因此,对于随机预测,,对于完全区分的模型,。参见哈雷尔的书,第493页c = 0.5 c = 1cccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 您将如何解决这个问题?您是否建议计算预测中常见的统计数据(如MAPE)? 到目前为止发现的有用的东西: 幻灯片上的林的一致性相关系数的重复测量版本

2
我应该为每个社区运行单独的回归,还是社区可以简单地作为聚合模型中的控制变量?
我正在运行带有连续资产索引变量作为DV的OLS模型。我的数据来自三个相似的社区,彼此之间的地理位置非常接近。尽管如此,我认为使用社区作为控制变量很重要。事实证明,社区在1%的水平(-4.52的t评分)上具有重要意义。社区是3个不同社区中的1个的名义/类别变量,编码为1,2,3。 我的问题是,这种高度的意义是否意味着我应该对社区进行个别回归,而不是作为一个整体。否则,使用社区作为控制变量是否可以做到这一点?

5
如何比较2个非平稳时间序列以确定相关性?
我有两个数据系列,绘制了随时间推移的死亡中位数。这两个系列都显示出随着时间的推移死亡年龄会增加,但比另一个低得多。我想确定较低样本的死亡年龄增加是否与较高样本的死亡年龄明显不同。 以下是按年份(从1972年到2009年,包括1972年)排序的数据,四舍五入到小数点后三位: Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983 Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 …

2
我应该在集群级别还是在个人级别进行引导?
我有一个将患者嵌套在医院中的生存模型,其中包括医院的随机效应。随机效应是伽马分布的,我试图以易于理解的规模报告该术语的“相关性”。 我发现以下使用中位数危险比(有点像中位数赔率)的参考文献进行了计算。 Bengtsson T,Dribe M:历史方法43:15,2010年 但是,现在我想使用自举报告该估计的不确定性。数据是生存数据,因此每个患者有多个观察结果,每个医院有多个患者。似乎很明显,我需要在重新采样时对患者的观察结果进行聚类。但是我不知道我是否也应该对医院进行聚类(即对医院重新采样,而不是对患者进行抽样? 我想知道答案是否取决于感兴趣的参数,如果目标是与患者有关而不是与医院有关的东西,那会有所不同吗? 如果有帮助,我在下面列出了Stata代码。 cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


2
“ Stata”或“ R”中回归不连续设计中的图形
Lee和Lemieux(p。31,2009)建议研究人员在进行回归不连续性设计分析(RDD)时呈现图表。他们建议执行以下步骤: “ ...对于某个带宽,以及分别对于截止值左侧和右侧的一定数量的仓和 ,想法是构造仓(, ],其中 +,其中 “ķ 0 ķ 1 b ķ b ķ + 1 ķ = 1 ,。。。,ķ = ķ 0 ķ 1 b ķ = Ç - (ķ 0 - ķ + 1 )⋅ ħ 。Hhhķ0K0K_0ķ1个K1K_1bķbkb_kbk + 1bk+1b_{k+1}ķ = 1 ,。。。,K= K0k=1,...,K=K0k = 1, . . . …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.