Questions tagged «stata»

统计软件包。对于(a)涉及Stata作为问题的关键部分或预期答案的任何主题问题,请使用此标签;&(b)不仅仅是关于如何使用Stata的问题。

25
Python作为统计工作台
许多人使用主要工具(例如Excel或其他电子表格,SPSS,Stata或R)来满足其统计需求。他们可能会针对非常特殊的需求转向某些特定的程序包,但是可以使用简单的电子表格或常规统计信息包或统计信息编程环境来完成很多事情。 我一直很喜欢Python作为一种编程语言,对于简单的需求,编写一个简短的程序来计算我的需求很容易。Matplotlib让我可以绘制它。 有没有人完全从R切换到Python?R(或任何其他统计信息包)具有许多特定于统计信息的功能,并且它具有的数据结构使您可以考虑要执行的统计信息,而不必考虑数据的内部表示形式。Python(或其他一些动态语言)的好处是允许我使用熟悉的高级语言进行编程,并且它使我能够与驻留数据或可以进行测量的真实系统进行编程交互。但是我还没有找到任何可以让我用“统计术语”表达事物的Python软件包-从简单的描述统计到更复杂的多元方法。 如果我想将Python用作“统计工作台”来代替R,SPSS等,您能推荐什么? 根据您的经验,我会有什么得失?
355 r  spss  stata  python 

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
在R中复制Stata的“健壮”选项
我一直在尝试robust在R中复制Stata选项的结果。我使用了rlm来自MASS包的命令lmrob以及来自“ robustbase”包的命令。在这两种情况下,结果都与Stata中的“ robust”选项完全不同。在这种情况下,有人可以提出建议吗? 这是我在Stata中运行稳健选项时获得的结果: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. …

4
大于2x2的列联表中的Fisher精确检验
我被教导只在2x2的列联表中应用Fisher精确测试。 问题: 费舍尔本人是否曾设想过将这种测试用于大于2x2的表中(我知道他在尝试猜测一个老妇是否可以分辨是否向茶中添加了牛奶还是向茶中添加了茶的同时设计了该测试的传说) Stata允许我对任何列联表使用Fisher的精确测试。这有效吗? 当列联表中的预期单元数小于5时,是否最好使用FET?

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
尽管数据有些变化,为什么在混合模型中我得到的随机效应的方差为零?
我们使用以下语法运行了混合效果逻辑回归: # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 主题和项目是随机效果。我们得到一个奇怪的结果,即该主题词的系数和标准偏差均为零; Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

1
可以包含相互作用的双向方差分析的非参数等价情况是什么?
嗨,我正在尝试找到一种双向ANOVA(3x4设计)的非参数等效项,它能够包含交互作用。从我在Zar 1984年的“生物统计学分析”中的阅读可以使用Scheirer,Ray和Hare(1976)中提出的方法来实现,但是,据在线其他帖子推断,该方法不再适用(如果有的话)是)。 有谁知道哪种方法适合这样做,如果是,那么R或Stata中的相应功能是否合适?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
哪些诊断程序可以验证特定GLM系列的使用?
这似乎很基础,但是我总是在这一点上陷入困​​境…… 我处理的大多数数据都是非常规的,并且大多数分析都是基于GLM结构的。对于当前的分析,我有一个响应变量,即“步行速度”(米/分钟)。我很容易确定自己无法使用OLS,但是在确定哪个家庭(伽玛,威布尔等)合适的时候,我存在很大的不确定性! 我使用Stata并查看诸如残差和异方差,残差与拟合值之类的诊断信息。 我知道计数数据可以采用比率(例如发生率)的形式,并且使用了伽玛(类似于过度分散的离散负二项式模型),但是只是想用“吸烟枪”说是的,您就对了家庭。看看标准化残差与拟合值是唯一,最好的方法吗?我也想使用混合模型来说明数据中的某些层次结构,但首先需要弄清哪种家庭最能描述我的响应变量。 任何帮助表示赞赏。Stata语言特别感谢!


4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
2SLS,但第二级Probit
我正在尝试使用工具变量分析来推断观测数据的因果关系。 我遇到了两阶段最小二乘(2SLS)回归,这很可能可以解决我研究中的内生性问题。但是,我希望第一阶段成为OLS,第二阶段成为2SLS中的Probit。根据我的阅读和搜索,我已经看到研究人员使用2SLS或第一阶段的Probit和第二阶段的OLS,但并非相反,这正是我想要达到的目标。 我目前正在使用Stata,并且Stata中的ivreg命令用于直接2SLS。

5
如何降低时间序列的趋势?
如何降低时间序列的趋势?可以先采取区别对待并进行Dickey Fuller测试,如果它静止不动,那么我们还好吗? 我还在网上发现,可以通过在Stata中进行以下操作来消除时间序列的趋势: reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) 降低时间序列的最佳方法是什么?

4
倾向得分与面板数据匹配
我有个人的纵向数据集,其中一些人接受了治疗,而其他人则没有。从出生到18岁的所有个体都在样本中,并且治疗发生在该范围内的某个年龄。治疗的年龄可能因病例而异。使用倾向得分匹配,我想将治疗的和对照组的配对成对地匹配到出生年份,这样我就可以追踪从出生到18岁的每一对。总共有大约150个治疗和4000个未治疗的个体。匹配后,想法是使用差异策略来估计治疗效果。 我目前面临的问题是与面板数据进行匹配。我正在使用Stata的psmatch2命令,并且使用倾向得分匹配来匹配家庭和个人特征。通常,面板数据在每个年龄段都会有不同的最佳匹配。例如:如果治疗A,B和C是对照,并且他们都出生于1980年,那么A和B可能在1980年匹配到0岁,而A和C则在1981年匹配到1岁,依此类推。 。另外,A可能与其前几年的自身预处理值匹配。 为了解决这个问题,我取了所有随时间变化的变量的平均值,以便匹配可以识别在样本期间平均而言最相似的个人,并且我针对0至18岁的每个年龄段分别进行匹配。不幸的是,这仍然将不同的控制单元与每个年龄组的每个治疗单元匹配。 如果有人可以指导我找到一种与Stata中的面板数据进行成对匹配的方法,将不胜感激。

2
如何解释Stata中的概率模型?
我不确定如何解释我在Stata上运行的概率回归。数据是关于贷款批准的,白色是一个虚拟变量,如果一个人是白人,则为= 1,否则为= 0。任何有关如何阅读此书的帮助将不胜感激。我最想寻找的是如何找到白人和非白人的贷款批准估计概率。有人可以帮我解决这里的文字以及如何使其正常吗?对不起,我不知道该怎么做。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.