Questions tagged «regression-to-the-mean»

2
回归到“思考,快速和慢速”中的均值
丹尼尔·卡尼曼(Daniel Kahneman)在《快与慢的思考》中提出了以下假设问题: (第186页)朱莉目前在州立大学任教。她四岁时能流利阅读。她的平均成绩(GPA)是多少? 他的目的是说明在做出有关某些统计数据的预测时,我们通常如何无法解释均值的回归。在随后的讨论中,他建议: (第190页)回想一下,在当前案例中,阅读年龄和GPA两项测量之间的相关性等于决定因素中共享因素的比例。您对该比例的最佳猜测是什么?我最乐观的猜测是大约30%。假定此估计,我们将需要产生一个无偏预测。以下是通过四个简单步骤到达那里的说明: 首先估算平均GPA。 确定符合您对证据印象的GPA。 估计阅读早熟与GPA之间的相关性。 如果相关系数是0.30,则将平均值的30%距离移到匹配的GPA。 我对他的建议的解释如下: 使用“她四岁时能流利阅读”为朱莉的阅读早熟建立标准分数。 确定具有相应标准分数的GPA。(如果 GPA和阅读早熟之间的相关性是完美的,则可以预测的合理GPA将与此标准分数相对应。) 估计GPA差异的百分比可以通过阅读早熟的差异来解释。(在这种情况下,我假设他指的是“相关”的确定系数?) 由于朱莉的阅读早熟标准分数的只有30%可以由解释她的GPA标准分数的因素来解释,因此我们仅有理由预测朱莉的GPA标准分数将是该分数的30%在完全相关的情况下。 我对卡尼曼程序的解释正确吗?如果是这样,他的程序是否有更正式的数学证明,尤其是步骤4?通常,两个变量之间的相关性与其标准分数的变化/差异之间是什么关系?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.