统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



2
梯度助推树与随机森林
弗里德曼(Friedman)提出的梯度树增强使用决策树作为基础学习者。我想知道我们是否应该使基本决策树尽可能复杂(完全成长)或更简单?选择有什么解释吗? 随机森林是使用决策树作为基础学习者的另一种集成方法。根据我的理解,我们通常在每次迭代中使用几乎完全增长的决策树。我对吗?

8
在面部图像数据库中检测给定的面部
我正在做一个小项目,通过他们的个人资料图片涉及Twitter用户的面孔。 我遇到的一个问题是,在我滤除了清晰的人像照片以外的所有图像之后,一小部分但相当多的Twitter用户使用Justin Bieber的图片作为个人资料图片。 为了将它们过滤掉,我如何以编程方式判断一张照片是否是贾斯汀·比伯的照片?

3
如果残差是正态分布的,而y不是,该怎么办?
我有一个奇怪的问题。假设您有一个较小的样本,您要使用简单线性模型分析的因变量高度偏左。因此,您假设üüu不是正态分布的,因为这将导致呈正态分布ÿÿy。但是,当您计算QQ正态图时,有证据表明残差呈正态分布。因此,任何人都可以假设误差项是正态分布的,尽管ÿÿy不是。那么,当误差项看起来是正态分布而ÿÿy不是时,它是什么意思呢?


6
您如何解释相关性和协方差之间的区别?
跟进这个问题,您将如何向仅理解均值的人解释协方差?谈到向外行人解释协方差的问题,我想到了一个类似的问题。 如何向统计学新手解释协方差和相关性之间的区别?似乎两者均指代链接到另一个变量的一个变量的更改。 与提到的问题类似,缺少公式将是可取的。

15
2016年美国大选结果:预测模型出了什么问题?
首先是英国脱欧,现在是美国大选。许多模型预测大都偏离了,这里有教训可学吗?截至太平洋标准时间(PST)昨天下午4点,博彩市场仍以4比1的优势吸引了希拉里。 我认为,有真实货币的博彩市场应该充当那里所有可用预测模型的集合。因此,说这些模型做得并不好是不为过的。 我看到一个解释是,选民不愿将自己确定为特朗普的支持者。模型如何包含这样的效果? 我读到的一个宏观解释是民粹主义的兴起。那么问题是统计模型如何捕获这样的宏观趋势? 这些预测模型是否过多地强调了民意测验和情绪数据,而从该国100年的角度来看,这些数据还不够?我引用朋友的评论。


4
自举中的.632+规则是什么?
在这里, @ gung引用了.632+规则。快速的Google搜索无法就此规则的含义以及它的用途产生简单易懂的答案。有人可以阐明.632+规则吗?
107 bootstrap 


6
是否有对数据矩阵
对于给定的数据矩阵AAA(列中有变量,行中有数据点),似乎ATAATAA^TA在统计中起着重要作用。例如,它是普通最小二乘分析解决方案的重要组成部分。或者,对于PCA,其特征向量是数据的主要成分。 我知道如何计算ATAATAA^TA,但是我想知道是否可以直观地解释此矩阵表示什么,从而导致它的重要作用?


7
为什么准确性不是评估分类模型的最佳方法?
这是一个一般性问题,在这里多次被间接问到,但缺少一个权威性的答案。对此有详细的答案将是很棒的参考。 准确度(正确分类在所有分类中所占的比例)是非常简单且非常“直观”的度量,但是对于不平衡的数据而言可能不是一个很好的度量。为什么我们的直觉会误导我们,并且此措施还有其他问题?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.