统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


2
调整随机森林的实用问题
我的问题是关于随机森林。这个美丽的分类器的概念对我来说很清楚,但是仍然存在许多实际使用问题。不幸的是,我没有找到任何有关RF的实用指南(我一直在寻找类似Geoffrey Hinton撰写的“训练受限的Boltzman机器的实用指南”之类的内容,但搜索的是Random Forests! 在实践中如何调整RF? 树木数量越大总会更好吗?是否有合理的限制(当然,除了压缩容量以外),树木数量的增加以及如何针对给定的数据集进行估算? 树木的深度怎么样?如何选择合理的一个?在一个森林中试验不同长度的树木有感觉吗?对此有什么指导? 训练射频时还有其他参数值得一看吗?用于建造单个树木的算法可能是? 当他们说RF能够抵抗过度拟合时,这是真的吗? 我将不胜感激,在搜索过程中可能错过的任何答案和/或指向指南或文章的链接。


18
统计面试题
我正在寻找一些统计信息(从可能性到概率),从最基本的到更高级的。答案不是必需的(尽管指向本网站上特定问题的链接会很好)。

4
概率分布的“矩”又是什么“矩”?
我知道什么是矩,如何计算矩,以及如何使用矩生成函数获取高阶矩。是的,我知道数学。 现在,我需要润滑工作中的统计知识,我想我也应该问这个问题-困扰我大约几年了,回到大学后,没有教授知道答案,或者只是拒绝回答这个问题(诚实地) 。 那么“矩”一词在这种情况下是什么意思?为什么选择这个词?对我来说,这听起来不直观(或者我从没在大学时就这么听过:)想到它,我同样对它在“惯性矩”中的用法感到好奇;)但让我们暂时不关注它。 因此,分布的“时刻”是什么意思,它试图做什么,以及为什么要这样说!:)为什么有人在乎时刻?在这一刻,我对那一刻感到不舒服;) PS:是的,我可能也曾问过类似的方差问题,但我确实很重视直观的理解,而不是“在书中查找以找出问题” :)


5
神经网络中多类别,多标签分类任务的损失函数是什么?
我正在训练一个神经网络,以将一组对象分类为n类。每个对象可以同时属于多个类(多类,多标签)。 我读到,对于多类问题,通常建议使用softmax和分类交叉熵代替mse作为损失函数,并且我或多或少地了解了为什么。 对于我的多标签问题,使用softmax当然是没有意义的,因为每种类别的概率都应该彼此独立。因此,我的最后一层就是S型单元,将其输入压缩到每个类的概率范围为0..1。 现在我不确定应该使用什么损失函数。观察分类交叉熵的定义,我认为它不适用于此问题,因为它将仅考虑应为1的神经元输出,而忽略其他神经元的输出。 二进制交叉熵听起来更合适,但是我只看到它曾经针对单个输出神经元的二进制分类问题提到过。 我正在使用python和keras进行培训,以防万一。

12
为什么神经网络需要这么多的训练实例来执行?
一个2岁的人类孩子需要大约5辆汽车才能以合理的准确性识别它,而不论其颜色,制造等如何。我儿子2岁时,即使他已经看过,也能够识别电车和火车。一些。由于他通常会彼此混淆,因此显然他的神经网络还没有足够的训练,但仍然可以训练。 缺少人工神经网络是什么使它们无法更快地学习呢?转移学习是答案吗?

5
关于收缩的统一观点:斯坦因悖论,岭回归和混合模型中的随机效应之间有什么关系(如果有)?
考虑以下三种现象。 斯坦因悖论:给定一些来自多元正态分布的数据,样本均值并不是真实均值的很好估计。如果将样本均值的所有坐标都缩小为零(或者如果我理解正确的话,实际上是缩小为任何值),则可以获得具有较低均方误差的估计。Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 注意:通常斯坦因悖论是通过仅考虑单个数据点而得出的;如果这很关键并且我上面的说法不正确,请纠正我。RnRn\mathbb R^n Ridge回归:给定一些因变量和一些自变量,标准回归趋于过度拟合数据并导致糟糕的样本外性能。通常可以通过将缩小为零来减少过度拟合:。X β = (X ⊤ X )- 1 X ⊤ Ŷ β β = (X ⊤ X + λ 我)- 1 X ⊤ ÿyy\mathbf yXX\mathbf Xβ=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yββ\betaβ=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda …

8
有一个很好的,令人信服的示例,其中p值很有用?
标题中的问题是不言而喻的,但我想提供一些背景信息。 ASA在本周早些时候发布了“ 关于p值:上下文,过程和目标 ”的声明,概述了对p值的各种常见误解,并敦促在没有上下文和思想的情况下不要使用它(可以这样说)。任何统计方法,真的)。 为了回应ASA,马特洛夫(Matloff)教授写了一篇博客文章:150年后,ASA对p值表示否。然后,本杰米尼(Benjamini)教授(和我)写了一篇题为“ 这不是p值的过错 –对最近ASA声明的反思”的回复。作为回应,马特洛夫教授在后续帖子中问: 我想看到的是一个很好的,令人信服的示例,其中p值很有用。那确实是底线。 要引用他的两个主要论点反对的用处 -值:ppp 对于大样本,显着性检验是针对原假设的微小,不重要的偏离而发动的。 在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬而离奇的。 我对其他经过交叉验证的社区成员对这个问题/论点的看法以及对它的良好回应感到非常感兴趣。

8
R语言在经济学领域是否可靠?
我是经济学的研究生,最近从其他非常著名的统计软件包转换为R(我主要使用SPSS)。目前,我的小问题是我是班上唯一的R用户。我的同学使用Stata和Gauss,我的一位教授甚至说R是工程学的理想选择,而不是经济学的理想选择。他说,许多软件包是由对编程了解很多但对经济学了解不多的人构建的,因此并不可靠。他还提到了这样一个事实,因为构建R包实际上不涉及任何金钱,因此没有动机去正确地完成它(例如,与Stata不同),并且他使用R一段时间并在其中获得了一些“荒谬”的结果。他尝试估算一些东西。此外,他抱怨说自己在R中使用了随机数生成器,他说这是“ 我使用R仅仅一个多月了,我必须说我爱上了它。我从教授那里听到的所有这些东西只是让我沮丧。 所以我的问题是:“ R在经济学领域是否可靠?”。

1
如何解释泊松回归中的系数?
我如何解释泊松回归中的主要影响(虚拟编码因子的系数)? 假设以下示例: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

5
如何解释逆协方差或精度矩阵?
我想知道是否有人可以指出一些参考文献,这些参考文献讨论逆协方差矩阵(也称为浓度矩阵或精度矩阵)的元素的解释。 我可以访问Cox和Wermuth的Multivariate Dependencies,但是我正在寻找的是对逆矩阵中每个元素的解释。维基百科指出:“精度矩阵的元素具有偏相关和偏方差的解释”,这使我进入了此页面。有没有使用线性回归的解释吗?IE,是协方差还是几何?

4
如何添加第二IV才能使第一IV重要?
我可能有一个简单的问题,但是现在让我感到困惑,所以希望您能帮助我。 我有一个最小二乘回归模型,其中有一个自变量和一个因变量。关系并不重要。现在,我添加第二个自变量。现在,第一个自变量和因变量之间的关系变得很重要。 这是如何运作的?这可能表明我的理解存在一些问题,但是对我而言,但我看不到添加第二个独立变量如何使第一个有意义。

1
期望中的下标符号
在量度理论框架下的条件期望中,下标符号的确切含义是什么?这些下标没有出现在条件期望的定义中,但是例如,我们可能会在Wikipedia的此页面中看到。(请注意,并非总是如此,几个月前是同一页)。EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] 例如,具有和的的含义是什么?X〜 Ñ(0,1)ÿ=X+1EX[X+Y]EX[X+Y]\mathbb{E}_X[X+Y]X∼N(0,1)X∼N(0,1)X\sim\mathcal{N}(0,1)Y=X+1Y=X+1Y=X+1

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.