统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



7
统计的分支是什么?
在数学中,存在诸如代数,分析,拓扑等分支。在机器学习中,有监督,无监督和强化学习。在每个分支中,都有更精细的分支,这些分支进一步划分了方法。 我在绘制统计数据方面遇到麻烦。统计学的主要分支(和分支)是什么?不可能有一个完美的分区,但是有什么比大空白图更好的了。 视觉示例:

3
将生日悖论扩展到2个人以上
在传统的“生日悖论”中,问题是“一群nnn人中的两个或两个以上的人共享生日的机会是多少”。我陷入一个问题,这是对此的扩展。 我不知道两个人分享生日的概率,而是需要扩展问题来知道xxx或更多人分享生日的概率是多少。在x=2x=2x=2您可以通过计算没有两个人分享生日并从减去生日的概率来做到这一点111,但是我认为我不能将此逻辑扩展到更大的xxx。 为了使这一点进一步复杂化,我还需要一个适用于nnn(百万)和xxx(千)的非常大数的解决方案。

4
我什么时候应该在培训数据集中平衡课程?
我有一个在线课程,据我了解,训练数据中的班级不平衡可能会导致问题,因为分类算法遵循多数原则,因为如果不平衡过多,分类结果就会很好。在一项作业中,必须通过对多数类进行欠采样来平衡数据。 但是,在此博客中,有人声称平衡数据甚至更糟: https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 那么是哪一个呢?我应该平衡数据吗?它是否取决于所使用的算法,因为某些算法可能会适应不平衡的类比例?如果是这样,哪一个对不平衡数据是可靠的?

3
如果X和Y不相关,那么X ^ 2和Y也不相关吗?
如果两个随机变量XXX和不相关,我们还可以知道和不相关吗?我的假设是。X 2 YYYYX2X2X^2YYY X,YX,YX, Y不相关意味着,或E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] 这是否也意味着以下内容? E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y]E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y] E[X^2Y]=\int x^2y f_X(x)f_Y(y)dxdy=\int x^2f_X(x)dx\int yf_Y(y)dy=E[X^2]E[Y]

4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?

7
时间序列分析的重点是什么?
时间序列分析的重点是什么? 还有很多其他统计方法,例如回归和机器学习,它们都有明显的用例:回归可以提供有关两个变量之间关系的信息,而机器学习非常适合预测。 但是与此同时,我看不到时间序列分析有什么用。当然,我可以拟合ARIMA模型并将其用于预测,但是当该预测的置信区间将很大时,这有什么好处呢?尽管这是世界历史上数据驱动最多的行业,但没有人能预测股市是有原因的。 同样,如何使用它来进一步了解我的流程?当然,我可以绘制ACF并进行“啊哈!有一些依赖!”,那又如何呢?重点是什么?当然存在依赖性,这就是为什么要开始进行时间序列分析的原因。您已经知道存在依赖性。但是您打算将其用于什么?


5
在统计学和机器学习中区分两组:假设检验vs.分类vs.聚类
假设我有两个数据组,分别标记为A和B(每个数据组包含200个样本和1个特征),我想知道它们是否不同。我可以: a)进行统计检验(例如t检验)以查看它们是否在统计上不同。 b)使用监督机器学习(例如,支持向量分类器或随机森林分类器)。我可以对部分数据进行训练,然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类,那么我可以确定样本是可区分的。 c)使用无监督算法(例如K-Means),然后将所有数据分为两个样本。然后,我可以检查找到的这两个样本是否与我的标签A和B一致。 我的问题是: 这三种不同方式如何重叠/排斥? b)和c)对任何科学论证有用吗? 如何从方法b)和c)中获得样品A和B之间差异的“重要性”? 如果数据具有多个功能而不是1个功能,将会发生什么变化? 如果它们包含不同数量的样本(例如100对300)会怎样?




5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
图形模型中的图论在哪里?
图形模型的介绍将它们描述为“ ...图论与概率论之间的结合”。 我得到了概率论的一部分,但是我对理解图论到底适合什么地方有困难。从图论中得到什么见解帮助加深了我们对不确定性下的概率分布和决策的理解? 除了在PGM中图形理论术语的明显使用之外,我正在寻找具体的示例,例如将PGM分类为“树”或“二分”或“无向”等。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.