统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
归一化与缩放
数据“规范化”和数据“缩放”之间有什么区别?直到现在我都认为这两个术语指的是同一过程,但现在我意识到还有一些我不知道/不了解的事情。另外,如果“规范化”和“缩放”之间存在差异,那么什么时候应该使用“规范化”而不是“缩放”,反之亦然? 请举例说明。

1
如何解释I型,II型和III型ANOVA和MANOVA?
我的主要问题是进行I型(顺序)方差分析时如何解释输出(系数,F,P)? 我的具体研究问题要复杂一些,因此我将把例子分成几部分。首先,如果我对蜘蛛密度(X1)对植物生长(Y1)的影响感兴趣,并且我在围墙内种植了幼苗并控制了蜘蛛密度,那么我可以使用简单的ANOVA或线性回归分析数据。然后,对于ANOVA使用I,II或III平方和(SS)都没关系。就我而言,我有5个密度级别的4个副本,因此可以将密度用作因子或连续变量。在这种情况下,我更喜欢将其解释为连续的独立(预测变量)变量。在RI中可以运行以下命令: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) 运行方差分析功能对于以后的比较很有希望,因此请在这里忽略它的奇怪之处。输出为: Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 现在,让我怀疑我无法控制的土壤中无机氮的起始水平可能也显着影响了植物的生长。我对这种效果并不特别感兴趣,但是想潜在地解释它引起的变化。确实,我的主要兴趣在于蜘蛛密度的影响(假设:蜘蛛密度的增加会导致植物生长的增加-大概是通过减少草食性昆虫引起的,但我只测试这种作用而不是机理)。我可以将无机氮的影响添加到我的分析中。 出于我的问题,让我们假设我测试了交互作用密度* inorganicN,并且它并不重要,因此我将其从分析中删除并运行以下主要效果: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

6
分布之间的Kolmogorov距离的动机
有许多方法可以测量两个概率分布的相似程度。在不同的圈子中流行的方法有: Kolmogorov距离:分布函数之间的超距离; 坎托罗维奇-鲁宾斯坦距离:两个具有Lipschitz常数的函数的期望值之间的最大差,也就是分布函数之间的L 1距离;1个1个1大号1个大号1个L^1 bounded-Lipschitz距离:与KR距离一样,但函数也必须具有最大绝对值。1个1个1 这些有不同的优点和缺点。实际上,只有3.意义上的收敛才真正对应于分布的收敛。一般而言,在1.或2.的意义上的收敛性要强一些。(特别是如果的概率为1,则Xn的分布收敛为0,但不在Kolmogorov距离内收敛。但是,如果极限分布是连续的,则不会发生这种病理情况。)Xñ= 1ñXñ=1个ñX_n=\frac{1}{n}1个1个1XñXñX_n000 从基本概率或测度理论的角度来看,1.很自然,因为它比较了某个集合中的概率。另一方面,更复杂的概率视角倾向于更多地关注期望而不是概率。同样,从功能分析的角度来看,基于二元性和某些功能空间的距离(如2.或3.)非常吸引人,因为有大量的数学工具可用于处理此类事物。 但是,我的印象(如果我错了,请纠正我!)是在统计中,Kolmogorov距离是衡量分布相似度的通常首选方法。我可以猜出一个原因:如果其中一个分布是在有限支持下离散的,特别是如果它是一些实际数据的分布,那么到模型分布的Kolmogorov距离就很容易计算。(实际上,KR距离的计算较难,BL距离实际上是不可能的。) 因此,我的问题(最后)是,出于统计目的,是否还有其他原因(无论是实践原因还是理论原因)都倾向于使用Kolmogorov距离(或其他距离)?

8
所有模型都没有用吗?有没有确切的模型可能有用?
这个问题在我心中困扰了一个多月。2015年2月的《Amstat新闻》收录了伯克利教授Mark van der Laan 的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计才是一门艺术而不是一门科学。根据他的说法,人们总是可以使用“精确模型”,而我们这样做的失败会导致“缺乏严格……我担心我们在数据科学中的代表地位将被边缘化”。 我同意我们有被边缘化的危险,但是威胁通常来自那些声称(听起来很像范德兰教授的人)他们没有使用某种近似方法,但实际上他们的方法却少得多的人严格的数据模型比经过仔细应用的统计模型还要严格-甚至是错误的统计模型。 我认为可以说范德兰教授对那些重复Box经常使用的话的人很鄙视:“所有模型都是错误的,但有些模型是有用的。” 基本上,正如我读到的那样,他说所有模型都是错误的,并且都是无用的。现在,我该拒绝伯克利大学教授的观点吗?另一方面,他是谁如此轻描淡写地拒绝了我们领域中真正的巨头之一的观点? van der Laan博士在详细阐述时指出:“声明所有模型都是错误的,完全是胡说八道……例如,没有任何假设的统计模型始终是正确的。” 他继续说:“但是通常,我们可以做得更好:我们可能知道数据是独立的相同实验的结果。” 除了非常狭窄的随机采样或受控实验设置外,我看不出有人会知道这一点。作者指出他在有针对性的最大似然学习和有针对性的基于最小损失的学习中的工作,这些工作“将最先进的技术集成到了机器学习/数据自适应估计中,所有因果推理,审查数据,效率和经验方面的令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”ññn 我也同意一些说法。他说,我们需要认真对待我们的工作,我们作为统计学家的角色以及我们的科学合作者。听见!当人们例行使用逻辑回归模型或其他任何方法而没有仔细考虑是否足以回答科学问题或是否适合数据时,这无疑是个坏消息。我确实在该论坛上发布的问题中看到了很多此类滥用行为。但是我也看到不精确模型(甚至参数模型)的有效和有价值的使用。与他所说的相反,我很少被“另一种逻辑回归模型闷死”。我猜这就是我的天真。 所以这是我的问题: 使用完全不做任何假设的模型,可以做出哪些有用的统计推断? 是否存在使用目标最大可能性使用重要的真实数据的案例研究?这些方法是否被广泛使用和接受? 所有不精确的模型真的没有用吗? 除了琐碎的情况以外,是否可能知道您拥有确切的模型? 如果这太基于观点,因此太离题了,该在哪里讨论?因为范德兰博士的文章确实需要进行一些讨论。

10
大数据到底是什么?
我曾多次被问到这个问题: 什么是大数据? 学生和我的亲戚都开始关注统计和ML。 我找到了这个简历。我觉得我同意唯一的答案。 在维基百科页面也有一些关于它的评论,但我不知道我是否真的与那里的一切同意。 编辑:( 我觉得Wikipedia页面缺少解释解决此问题的方法以及我在下面提到的范例)。 我最近参加了EmmanuelCandès的演讲,他在演讲中介绍了大数据范例 首先收集数据稍后再提问⇒⇒\Rightarrow 这是与假设驱动的研究的主要区别,在假设研究中,您首先拟定了一个假设,然后收集数据对它进行了说明。 他深入探讨了量化由数据监听生成的假设的可靠性的问题。我从他的演讲中学到的主要内容是,我们确实需要开始控制FDR,他提出了仿制方法。 我认为简历应该对什么是大数据以及您对它的定义有疑问。我觉得有很多不同的“定义”,如果对它的组成没有普遍的共识,很难真正掌握它的含义或向他人解释。 我认为Candès提供的“定义/范例/描述”是我最接近的观点,您对此有何看法? EDIT2:我认为答案不仅仅应解释数据本身。它应该是数据/方法/范例的组合。 EDIT3:我认为这次对迈克尔·乔丹的采访也可能会有所帮助。 EDIT4:我决定选择投票率最高的答案作为正确答案。尽管我认为所有答案都有助于讨论,但我个人认为这更多是我们如何生成假设并使用数据的范例问题。我希望这个问题可以为那些寻找大数据的人提供参考。我希望可以更改Wikipedia页面,以进一步强调多重比较问题和FDR的控制。
44 large-data 


4
为什么统计学家说不重要的结果意味着“您不能拒绝零”而不是接受零假设?
像两个样本t检验一样,传统的统计检验集中在试图消除以下假设:两个独立样本的函数之间没有差异。然后,我们选择一个置信度,并说如果均值差超过95%,我们可以拒绝原假设。如果不是,我们“不能拒绝原假设”。这似乎意味着我们也不能接受它。这是否意味着我们不确定原假设是否成立? 现在,我想设计一个假设是两个样本的函数相同的检验(这与假设两个样本不同的传统统计检验相反)。因此,我的原假设是两个样本不同。我应该如何设计这样的测试?简单地说,如果p值小于5%,我们可以接受没有显着差异的假设吗?

4
内核如何应用于要素图以生成其他要素图?
我试图理解卷积神经网络的卷积部分。看下图: 在理解第一个卷积层时,我没有问题,在这里我们有4个不同的内核(大小为),我们将它们与输入图像进行卷积以获得4个特征图。k × kk×kk \times k 我不理解的是下一个卷积层,我们从4个特征图转到6个特征图。我假设在这一层中有6个内核(因此给出了6个输出特征图),但是这些内核如何在C1中显示的4个特征图上工作?内核是3维的,还是2维的,并在4个输入要素图中复制?

5
统计数据发表在学术论文上
我阅读了许多进化论/生态学学术论文,有时的特定目的是了解如何在教科书之外“在现实世界中”使用统计数据。我通常将论文中的统计信息作为福音,并使用这些论文来帮助我进行统计学学习。毕竟,如果一篇论文花费了数年的时间并且经过了严格的同行评审,那么统计数字肯定会非常可靠吗?但是在过去的几天中,我质疑了我的假设,并想知道在学术论文中发表统计分析的频率是多少?特别是,可以预期的是,诸如生态学和进化论等领域的人们花费更少的时间来学习统计学,而花费更多的时间来学习其领域。 人们在学术论文中多久发现一次可疑统计数据?

6
您最喜欢的统计图是什么?
这是我的最爱 这个例子很幽默(贷记给我的前教授史蒂芬·戈特梅克),但我也对图表感到兴趣,您可以很好地捕捉和传达统计见解或方法,以及对它们的想法。 每个答案一个条目。当然,这个问题与您最喜欢的“数据分析”动画片是一样的。 请为您提供的任何图像提供适当的信誉/引用。

3
合并p值时,为什么不平均呢?
我最近了解了费舍尔组合p值的方法。这是基于该空下p值遵循均匀分布,并且该事实 ,我认为是天才。但是我的问题是为什么要走这种令人费解的方式?为什么不使用p值的均值并使用中心极限定理(这有什么问题)?或中位数?我试图了解RA费舍尔这个宏伟计划背后的天才。− 2 ∑我= 1ñ日志X一世〜χ2(2 n ), 给定 X〜UNIF (0 ,1 )−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

1
多个随机变量乘积的方差
我们知道两个自变量的答案: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)V 一- [R (ÿ)+ V a r(X)(E(是))2+ V a r(Y)(E(X))2V一种[R(Xÿ)=Ë(X2ÿ2)-(Ë(Xÿ))2=V一种[R(X)V一种[R(ÿ)+V一种[R(X)(Ë(ÿ))2+V一种[R(ÿ)(Ë(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 但是,如果我们采用两个以上变量的乘积,就方差和每个变量的期望值而言,答案是什么?V 一- [R( X1个X2⋯ Xñ)V一种[R(X1个X2⋯Xñ){\rm Var}(X_1X_2 \cdots X_n)

1
计算科恩的Kappa方差(和标准误差)
Kappa()统计数据是由Cohen [1]在1960年引入的,用于测量两个评估者之间的一致性。然而,它的差异在相当长一段时间以来一直是矛盾的根源。κκ\kappa 我的问题是,对于大型样本,哪种方法是最佳计算方法?我倾向于相信由Fleiss [2]测试和验证的是正确的选择,但这似乎并不是唯一发表的似乎是正确的(并在相当近期的文献中使用)。 现在,我有两种具体方法来计算其渐近大样本方差: Fleiss,Cohen和Everitt发表的校正方法[2]。 增量法可以在Colgaton,2009 [4](第106页)的书中找到。 为了说明这种混淆,以下是Fleiss,Cohen和Everitt [2]的引文,重点是我的话: 在实现最终成功之前,许多人类的努力被反复失败所困扰。珠穆朗玛峰的缩放就是一个例子。西北通道的发现是第二次。推导正确的kappa标准误差是第三次。 因此,以下是发生的情况的小结: 1960年:科恩(Cohen)发表论文“名义尺度的一致性系数” [1],介绍了他的机会校正的两个评估者之间的一致性度量,称为。但是,他为方差计算发布了错误的公式。κκ\kappa 1968年:Everitt尝试更正它们,但他的公式也不正确。 1969年:Fleiss,Cohen和Everitt在论文“ Kappa和加权Kappa的大样本标准误差”中发表了正确的公式[2]。 1971年:Fleiss 用相同的名称发布了另一个统计信息(但有所不同),其方差公式不正确。κκ\kappa 1979年:Fleiss Nee和Landis出版了Fleiss的的更正公式。κκ\kappa 首先,请考虑以下符号。此表示法意味着将求和运算符应用于点所放置的维度中的所有元素: pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} 现在,人们可以将Kappa计算为: κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} 在其中 po=∑i=1kpii po=∑i=1kpii\ \ …


5
随机森林算法的优化实现
我注意到,有一些随机森林的实现,例如ALGLIB,Waffles和一些R包,例如randomForest。谁能告诉我这些库是否经过高度优化?它们是否基本上等同于《统计学习的要素》中详细介绍的随机森林,还是添加了很多额外的技巧? 我希望这个问题足够具体。为了说明我正在寻找的答案类型,如果有人问我线性代数软件包BLAS是否高度优化,我想说它是非常高度优化的,除了非常特殊的应用之外,几乎不值得尝试进行改进。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.