Questions tagged «stata»

统计软件包。对于(a)涉及Stata作为问题的关键部分或预期答案的任何主题问题,请使用此标签;&(b)不仅仅是关于如何使用Stata的问题。

2
使用负二项式回归时,R等于聚类选项
我正在尝试复制同事的工作,并将分析从Stata转移到R。她使用的模型调用nbreg函数中的“ cluster”选项来聚类标准错误。 有关此选项的内容和原因的完整说明,请参见http://repec.org/usug2007/crse.pdf。 我的问题是如何在R中为负二项式回归调用相同的选项? 我们在Stata中指定了本文的主要模型,如下所示 xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) 我已经用 pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) 这显然缺少聚集错误部分。 是否可以进行精确复制?如果可以,怎么办?如果没有,有什么合理的选择? 谢谢 [编辑]正如评论中所指出的那样,我希望找到一种不会将我带入多级模型领域的解决方案。尽管我的培训使我看到了这些事情应该相关,但是这比我自己独自承担更多的飞跃。因此,我一直在挖掘并找到以下链接:http : //landroni.wordpress.com/2012/06/02/fama-macbeth-and-cluster-robust-by-firm-and-time-standard-errors-in- r / 指向一些相当简单的代码来执行我想要的操作: library(lmtest) pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) summary(pday) …

1
如何处理固定效应模型中遗漏的虚拟变量?
我使用的是固定效应模型为我的面板数据(9岁,1000+ OBS),由于我的豪斯曼测试指示的值。当我为公司所包括的行业添加虚拟变量时,它们总是被忽略。我知道不同行业群体之间的DV(披露指数)差异很大。但是在使用Stata时,我无法在模型中使用它们。(Pr &gt; χ2)&lt; 0.05(P[R&gt;χ2)&lt;0.05(Pr>\chi^2)<0.05 有什么建议如何解决这个问题?又为什么省略它们?

1
比例的两样本比较,样本大小估计:R vs Stata
比例的两样本比较,样本大小估计:R vs Stata 对于样本量,我得到了不同的结果,如下所示: 在R中 power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) 结果: n = 160.7777ñ=160.7777n = 160.7777 (因此161)。 在Stata sampsi 0.70 0.85, power(0.90) alpha(0.05) 结果: n = 174ñ=174n = 174 每组。 为什么会有所不同?谢谢。 顺便说一句,我在SAS JMP中运行了相同的样本量计算,结果:(几乎与R结果相同)。n = 160ñ=160n = 160

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
随机效应荟萃分析的替代加权方案:遗漏标准偏差
我正在进行一项随机效应的荟萃分析,涉及许多未报告标准差的研究。所有研究均报告样本量。我认为无法估算或估算SD缺失数据。当无法为所有研究提供标准差时,如何使用原始(未标准化)均值差异作为效应量的荟萃分析进行加权?当然,我仍然可以估计tau平方,并希望将研究之间方差的度量合并到我用来留在随机效应框架内的任何加权方案中。 以下包含更多信息: 为什么原始均值差异可能仍然有用:数据以本质上有意义的比例报告:每单位美元。因此,均值差异的荟萃分析将立即得到解释。 为什么我不能近似或估算SD数据:缺少标准差数据的研究没有包含足够的数据来近似标准差(即,文献中从未报道中位数和范围)。估算丢失的数据似乎是不可取的,因为大部分研究都缺少标准差,并且因为研究在覆盖的地理区域和调查协议方面存在很大差异。 在荟萃分析中通常使用原始均值差来完成:研究权重基于均值差的标准误差(通常使用样本量项和合并方差来计算)。我没有这个 在随机效应荟萃分析中,研究权重还包括研究之间差异的术语。我有这个。 在这种情况下,可以使用简单的样本大小逆加权吗?我如何将我对tau平方的估计(或研究间差异的其他某种度量方法)纳入权重?

2
使用EM算法进行记录链接
我对按名字,姓氏和出生年份跨2个数据集链接记录感兴趣。使用EM算法可能可行,如果可以,怎么办? 以第一个记录中的以下记录为例:Carl McCarthy,1967。我将搜索第二个数据集中的所有记录,并在第一个名字和Carl之间分配一个jaro-winkler距离,在姓和麦卡锡之间分配一个jaro-winkler距离。这些距离是概率,出生年龄之间的距离也是概率。我们将这3个概率(乘以平均值)相乘为1。 现在是决策规则部分。让我们对所有概率从最高到最低进行排名。首先,我们希望P(第一个匹配项)&gt; =阈值。其次,我们还希望P(第二次匹配)/ P(第二次匹配)&gt; =如果P(第二次匹配)阈值存在。第三,我们希望第二个数据集中的第一个匹配项与Carl McCarthy,1967年的第一个数据集中的匹配人数不超过1个。 如何确定这些阈值? 我更喜欢Stata和/或Perl中的方法。 参见,例如: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf (尽管如此,我仍然没有完全理解为什么或如何,以及输入和输出是什么,以及假设和约束的严格性)。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
成对的重复测量方差分析还是混合模型?
我被要求分析来自临床试验的一些数据,以寻找两种测量血压的方法。我有来自50个主题的数据,每个主题使用每种方法的测量范围介于2到57个之间。 我想知道如何最好地进行。 显然,我需要一个解决方案,该解决方案应考虑以下事实:血压测量值是成对的(两种方法同时测量),还需要时变协变量(每个患者的观察次数不同),以及患者可变性。 我曾想过以某种方式将其纳入重复测量方差分析中,但我想可能需要采用混合模型方法。 我会很感激您能提供的任何有用的建议。 我是R的新手,但是对开发技能感到非常兴奋,并且我在Stata拥有一定的经验,因此可以随时依靠。
9 r  anova  mixed-model  stata 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.