统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
PCA的线性
PCA被认为是线性过程,但是: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), 其中 。这就是说,由PCA在数据矩阵上获得的特征向量的总和不等于由PCA在数据矩阵的总和上获得的特征向量。但是线性函数的定义不是:X=X1+X2+…+XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXiXiX_iXiXiX_ifff f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)? 那么,如果PCA不满足线性这一非常基本的条件,为什么将其视为“线性”呢?
35 pca  linear 

3
如何选择聚类方法?如何验证集群解决方案(以保证方法的选择)?
聚类分析的最大问题之一是,当基于使用的不同聚类方法(包括分层聚类中的不同链接方法)时,我们可能不得不得出不同的结论。 我想知道您对此的看法- 您将选择哪种方法以及如何选择。有人可能会说“最好的集群方法是为您提供正确的答案”;但我可能会回答,聚类分析应该是一种无监督的技术-那么我怎么知道哪种方法或链接是正确的答案? 总的来说:单独的集群是否足够强大才能依靠?还是我们需要第二种方法并获得基于这两种方法的共享结果? 我的问题不仅涉及验证/评估聚类性能的可能方法,而且涉及范围更广- 我们在什么基础上选择/优先于一种聚类方法/算法。另外,在选择一种对数据进行聚类的方法时,是否应该注意一些常见的警告? 我知道这是一个非常笼统的问题,很难回答。我只想知道您是否对我有任何意见或建议或建议,以了解更多信息。

5
像贝叶斯那样思考,像常客一样进行检查:这是什么意思?
我正在查看有关数据科学课程的一些演讲幻灯片,可以在这里找到: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 不幸的是,我无法观看此讲座的视频,并且在幻灯片上的某个位置,演示者具有以下文本: 一些关键原则 像贝叶斯一样思考,像常客一样检查(和解) 有人知道这实际上意味着什么吗?我觉得从这可以收集到关于这两种思想流派的深刻见解。

11
为什么在(0,255)上均匀生成8个随机位?
我正在生成8个随机位(0或1)并将它们连接在一起以形成8位数字。一个简单的Python模拟在离散集[0,255]上产生均匀分布。 我试图证明为什么这在我的脑海中有意义。如果我将其与掷8个硬币进行比较,那么期望值会不会在4头/ 4头左右?因此对我来说,我的结果应该反映出范围中间的峰值是有意义的。换句话说,为什么8个零或8个数的序列似乎与4和4或5和3等的序列一样相等?我在这里想念什么?

2
线性回归的梯度提升-为什么不起作用?
在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。 明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。 我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。 我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?


4
LSTM如何防止消失的梯度问题?
LSTM是专门为避免梯度消失而发明的。可以假设使用恒定误差旋转木马(CEC)来做到这一点,在下图中(来自Greff等人)对应于细胞周围的回路。 (来源:deeplearning4j.org) 而且我知道该部分可以看作是一种身份函数,因此导数为1,并且梯度保持恒定。 我不明白的是它不会因其他激活功能而消失吗?输入,输出和忘记门使用S形,其导数最大为0.25,而g和h传统上为tanh。反向传播如何使梯度不消失?



6
短时间序列的最佳方法
我有一个与短时间序列建模有关的问题。建模是否不是问题,而是如何建模。你会推荐建模(非常)短的时间序列(说长的什么方法)?“最好”是指最可靠的一种,即由于观察次数有限,因此最不容易出错。对于短序列,单个观测值可能会影响预测,因此该方法应提供谨慎的误差估计以及与预测相关的可能变异性。我通常对单变量时间序列感兴趣,但是了解其他方法也将很有趣。Ť≤ 20T≤20T \leq 20


5
自相关测试:Ljung-Box与Breusch-Godfrey
我习惯于看到Ljung-Box测试非常频繁地用于测试原始数据或模型残差中的自相关。我几乎忘记了还有另一个自相关检验,即布劳希-哥德弗雷检验。 问题: Ljung-Box和Breusch-Godfrey检验的主要区别和相似之处是什么?何时应优先选择另一个? (欢迎提供参考。尽管我看了几本教科书并在线搜索了材料,但是我还是无法找到这两个测试的任何比较。我能够分别找到每个测试的描述,但是我感兴趣的是两者的比较。)

4
分布如何具有无限的均值和方差?
如果能给出以下例子,将不胜感激: 均值和方差无限的分布。 具有无限均值和有限方差的分布。 具有有限均值和无限方差的分布。 具有有限均值和有限方差的分布。 这是因为我看到了我正在阅读,在Google谷歌搜索和阅读Wilmott论坛/网站上的主题的文章中使用的这些陌生术语(无限均值,无限方差),却没有找到足够清晰的解释。我自己的教科书中也没有找到任何解释。

2
多元回归还是偏相关系数?两者之间的关系
我什至不知道这个问题是否有意义,但是多元回归和部分相关之间有什么区别(除了相关性和回归之间的明显区别之外,这不是我的目标)? 我想弄清楚以下几点: 我有两个自变量(,)和一个因变量()。现在,独立变量不再与因变量相关。但是对于给定的当减小时减小。那么,我是否可以通过多元回归或偏相关来分析呢?X 2 ý X 1个 ÿ X 2X1个x1x_1X2x2x_2ÿyyX1个x1x_1 ÿyyX2x2x_2 编辑以希望改善我的问题: 我正在尝试了解多元回归和偏相关之间的区别。所以,当对于给定的减小时降低,是由于的组合效果和上(多重回归),或者它是由于去除的效果(部分相关)?x 1 x 2 x 1 x 2 y x 1ÿyyX1个x1x_1X2x2x_2X1个x1x_1X2x2x_2ÿyyX1个x1x_1

3
PCA和火车/测试区
我有一个数据集,其中有多组二进制标签。对于每组标签,我训练一个分类器,并通过交叉验证对其进行评估。我想使用主成分分析(PCA)降低尺寸。我的问题是: 是否可以对整个数据集执行一次 PCA ,然后如上所述使用较低维度的新数据集进行交叉验证?还是我需要为每个训练集做一个单独的PCA(这意味着为每个分类器和每个交叉验证对折做一个单独的PCA)? 一方面,PCA不使用任何标签。另一方面,它确实使用测试数据进行转换,因此恐怕它可能会偏向结果。 我应该提到,除了为我节省一些工作之外,对整个数据集执行一次PCA可使我立即可视化所有标签集的数据集。如果每个标签集都有不同的PCA,则需要分别可视化每个标签集。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.