Questions tagged «cross-section»

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


2
为什么使用横截面数据来推断/预测纵向变化是一件坏事?
我正在寻找希望存在的论文,但不知道是否存在。这可能是一组案例研究,和/或概率论的一个论据,关于为什么使用横截面数据来推断/预测纵向变化可能是一件坏事(即不一定如此,但可以如此)。 我已经从很多方面看到了这个错误:有人推断,由于英国的富人出行更多,所以随着社会的富裕起来,整个人口的出行也将增加。事实证明,这种推论在很长一段时间内都是不正确的-超过十年。这与家庭用电情况类似:横截面数据表明随着收入的增加而大量增加,这种增加不会随着时间的推移而显现。 有几件事发生,包括队列效应和供应方约束。 拥有一个参考文献来汇编这样的案例研究将非常有用;和/或使用概率论来说明为什么使用横截面数据来推断/预测纵向变化会产生非常非常的误导。 是否存在这样的论文,如果存在,那是什么?

2
是否允许对数据集使用平均值来改善相关性?
我有一个具有因变量和自变量的数据集。两者都不是时间序列。我有120个观察结果。相关系数为0.43 经过此计算后,我为两个变量添加了一个列,每12个观察值的平均值,结果得到2个新列,包含108个观察值(对)。这些列的相关系数为0.77 看来我以这种方式改善了相关性。可以这样做吗?我是否通过使用平均值提高了自变量的解释能力?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.