Questions tagged «clustered-standard-errors»

4
R中的标准错误聚类(手动或plm)
我试图理解标准错误“聚类”以及如何在R中执行(在Stata中是微不足道的)。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。 我可以使用任一虚拟变量进行固定效果 > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
何时使用固定效果与使用集群SE?
假设您具有单个数据横截面,其中个人位于组内(例如,学校内的学生),并且您希望估计以下形式的模型:Y_i = a + B*X_i其中X是个人水平特征和a常数的向量。 在这种情况下,假设未观察到的组间异质性会使您的点估计B及其SE产生偏差,因为它与您所关注的独立变量相关。 一种选择是按小组(学校)对SE进行聚类。另一个是要包括FE组。另一个是同时使用。在这些选项之间进行选择时应该考虑什么?尤其不清楚为什么要按组将SE聚类并使用FE组。在我的特定情况下,我有35个小组,每个小组中有5,000个人。我已经按照本pdf中的讨论进行了讨论,但是对于为什么以及何时可以同时使用群集SE和固定效果尚不清楚。 (请讨论集群式SE与FE的优缺点,而不是建议我只采用多层次模型。)

1
聚类标准错误与多层次建模?
我浏览了几本书(Raudenbush和Bryk,Snijders和Bosker,Gelman和Hill等)和几篇文章(Gelman,Jusko,Primo和Jacobsmeier等),但我仍然没有真正地把头缠住使用聚类标准误差和多级建模之间的主要区别。 我了解手头上与研究问题有关的部分;您只能从多层建模中获得某些类型的答案。但是,例如,对于您的兴趣系数仅处于第二级的两级模型,采用一种方法相对于另一种方法有什么优势?在这种情况下,我不必担心进行预测或提取聚类的各个系数。 我已经发现的主要区别是,当聚类具有不相等的样本大小时,聚类标准误差会受到影响,并且多级建模的弱点在于它假定了随机系数分布的规格(而使用聚类标准误差是无模型的) 。 最后,是否所有这些都意味着对于表面上可以使用这两种方法的模型,我们应该在系数和标准误差方面得到相似的结果吗? 任何答复或有用的资源将不胜感激。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.