统计和大数据

6

我有一个既包含连续数据又包含分类数据的数据集。我正在使用PCA进行分析，想知道是否可以将分类变量作为分析的一部分。我的理解是PCA只能应用于连续变量。那是对的吗？如果不能将其用于分类数据，则可以使用哪些替代方法进行分析？

147 categorical-data pca correspondence-analysis mixed-type-data

5

我正在训练一个神经网络，但是训练的损失并没有减少。我怎样才能解决这个问题？我不是在问过度拟合或正则化。我问的是如何解决训练集上我的网络性能无法提高的问题。这个问题是有意提出的，因此关于如何训练神经网络的其他问题可以作为该问题的副本来解决，其态度是：“如果给一个人一条鱼，你就可以给他喂一天，但是如果你教一个人，人钓鱼，你可以在他的余生中养活他。” 请参阅此Meta线程进行讨论：回答“我的神经网络不起作用，请解决”问题的最佳方法是什么？如果您的神经网络不能很好地泛化，请参阅：当我的神经网络不能很好地泛化时，我该怎么办？

146 neural-networks deep-learning

7

中心极限定理有什么直观的解释？

在几种不同的情况下，我们调用中心极限定理来证明我们要采用的任何统计方法（例如，通过正态分布近似二项式分布）。我了解关于该定理为何成立的技术细节，但是我刚刚想到，我并不真正理解中心极限定理背后的直觉。那么，中心极限定理背后的直觉是什么？ Layman的解释将是理想的。如果需要一些技术细节，请假设我了解pdf，cdf，随机变量等的概念，但不了解收敛概念，特征函数或与度量理论有关的知识。

144 intuition central-limit-theorem

25

R vs SAS，为什么私有公司更喜欢SAS？

我学会了R，但似乎公司对SAS经验更感兴趣。SAS相对于R有何优势？

143 r sas

6

在深层神经网络中，ReLU优于乙状结肠功能的优势是什么？

非线性技术的现状是在深度神经网络中使用整流线性单位（ReLU）代替S型函数。有什么优势？我知道在使用ReLU时训练网络会更快，并且会受到更多的生物学启发，还有其他优势吗？（也就是说，使用乙状结肠有什么缺点）？

141 machine-learning neural-networks deep-learning

5

一个“控制其他变量”到底如何？

这是引起这个问题的文章：不耐烦会使我们发胖吗？我喜欢这篇文章，它很好地展示了“控制其他变量”（IQ，职业，收入，年龄等）的概念，以便最好地隔离所讨论的两个变量之间的真实关系。您可以向我解释一下如何实际控制典型数据集上的变量吗？例如，如果您有2个人的耐心程度和BMI相同，但收入不同，您将如何处理这些数据？您是否将他们分为收入，耐心和BMI相似的不同子组？但是，最终有数十个变量需要控制（IQ，职业，收入，年龄等），然后如何汇总这些（潜在地）100个子组？实际上，现在我已经说了出来，我有一种感觉是这种方法使错误的树陷入困境。感谢您为我几年来一直想深入了解的事情提供任何信息...！

140 regression causality confounding controlling-for-a-variable statistics-in-media

5

在交叉验证后使用完整数据集进行训练？

在交叉验证后训练整个数据集总是一个好主意吗？换一种说法，它是确定与培训所有在我的数据集的样本，不能够检查这个特定的装置overfits？问题的一些背景：假设我有一个由→ α参数化的模型系列。还说我有一组N个数据点，并且我通过k倍交叉验证进行模型选择，以选择最能概括数据的模型。α⃗ α→\vec\alphaNNN 对于模型选择，我可以例如通过对每个候选者进行k倍交叉验证来在上进行搜索（例如，网格搜索）。在每个交叉验证的褶皱的，我结束了学习的模型β α。α⃗ α→\vec\alpha βαβα\beta_\alpha 交叉验证的重点是，对于每个折叠，我都可以通过在“看不见的数据”上进行测试来检查学习的模型是否过拟合。根据结果，我可以选择的型号的参数了解到→交通α最好的网格中的搜索交叉验证过程中广义最好的。βbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} NNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full} 在任何看不见的数据上。解决此问题的正确方法是什么？

139 machine-learning cross-validation model-selection

14

亚马逊面试问题-第二次面试的可能性

我在接受亚马逊采访时遇到了这个问题：接受第一次面试的所有人中有50％接受第二次面试 95％的朋友接受了第二次面试，他们觉得第一次面试很好没有进行第二次面试的朋友中有75％认为他们的第一次面试很好如果您觉得自己的第一次面试很好，那么您接受第二次面试的可能性是多少？有人可以解释如何解决吗？我无法将单词问题分解成数学（现在面试已经很长时间了）。我了解可能没有实际的数值解决方案，但是对如何解决此问题的解释会有所帮助。编辑：好吧，我确实得到了第二次面试。如果有人好奇，我会给出一个解释，该解释是以下一系列响应的组合：信息不足，朋友不具有代表性，等等，只是通过一些可能性进行了交谈。最后，这个问题使我感到困惑，感谢所有答复。

139 probability conditional-probability

8

Facebook终结了吗？

最近，本文受到了很多关注（例如，《华尔街日报》的关注）。基本上，作者得出的结论是，到2017年，Facebook将失去80％的成员。他们的主张基于SIR模型的外推，SIR模型是流行病学中经常使用的隔间模型。他们的数据来自Google搜索“ Facebook”的内容，作者使用Myspace的灭亡来验证他们的结论。题：作者是否犯了“相关并不意味着因果关系”的错误？该模型和逻辑可能适用于Myspace，但是对任何社交网络都有效吗？更新：Facebook回击与科学原则“相关等于因果关系”相一致，我们的研究明确表明普林斯顿可能有完全消失的危险。我们真的不认为普林斯顿大学或世界的空气供应很快就会消失。我们热爱普林斯顿大学（和空气），并最后提醒我们：“并非所有研究都是平等的，而且某些分析方法会得出非常疯狂的结论。

138 hypothesis-testing correlation epidemiology social-network

4

K折交叉验证中K的选择

我现在已经多次使用ķķK折交叉验证来评估某些学习算法的性能，但是对于如何选择的值，我一直感到困惑ķķK。我经常看到并使用的值ķ= 10ķ=10K = 10，但是这对我来说似乎完全是任意的，我现在只是按习惯使用101010而不是仔细考虑。对我来说，随着值的增加，您似乎会获得更好的粒度ķķK，因此理想情况下，您应该将ķķK得很大，但是也有可能会产生偏差。我想知道的值ķķK应该取决于什么，以及在评估算法时应该如何思考。如果我使用交叉验证的分层版本，是否会有所改变？

136 machine-learning classification cross-validation

15

计算标准偏差时用除的直观解释？

我今天问类，为什么你被划分方误差之和，而不是与，计算标准差时。nn − 1n−1n-1ñnn 我说过我不会在课堂上回答它（因为我不想进入无偏估计量），但后来我想知道- 为此有一个直观的解释吗？

136 standard-error intuition teaching bessels-correction

7

C在具有线性内核的SVM中有什么影响？

我目前正在使用具有线性内核的SVM对数据进行分类。训练集上没有错误。我尝试了几个参数值（）。这并没有改变测试集上的错误。CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 现在我不知道：这是一个错误由红宝石绑定引起了libsvm我使用（RB-LIBSVM）或者是这个理论可以解释？参数是否应始终改变分类器的性能？CCC

134 machine-learning svm libsvm

2

神经网络以及应用程序中使用的成本函数列表

评估神经网络性能时常用的成本函数是什么？细节（随意跳过此问题的其余部分，我的目的仅是提供有关答案可以用来帮助普通读者更理解的符号的说明）我认为，列出常用成本函数以及实践中使用的几种方法会很有用。因此，如果其他人对此感兴趣，我认为社区Wiki可能是最好的方法，或者如果它不在主题之列，我们可以将其删除。符号因此，首先，我想定义一个大家在描述它们时都使用的符号，以便使答案相互吻合。这种表示法来自尼尔森的书。前馈神经网络是连接在一起的多层神经元。然后，它接受一个输入，该输入通过网络“ tri流”，然后神经网络返回一个输出向量。更正式地，调用aijajia^i_j所述的活化（又名输出）神经元中的层，其中是在输入向量的元素。我吨ħ一个1 Ĵ Ĵ 吨ħjthjthj^{th}ithithi^{th}a1jaj1a^1_jjthjthj^{th} 然后，我们可以通过以下关系将下一层的输入与上一层的输入关联起来： aij=σ(∑k(wijk⋅ai−1k)+bij)aji=σ(∑k(wjki⋅aki−1)+bji)a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j) 哪里 σσ\sigma是激活功能， k t h（i − 1 ）t h j t h i t hwijkwjkiw^i_{jk}是重从神经元在层到神经元中的层，kthkthk^{th}(i−1)th(i−1)th(i-1)^{th}jthjthj^{th}ithithi^{th} Ĵ 吨ħ我吨ħbijbjib^i_j是层中神经元的偏差，并且jthjthj^{th}ithithi^{th} Ĵ 吨ħ我吨 ħaijajia^i_j代表层中神经元的激活值。jthjthj^{th}ithithi^th 有时我们写来表示，换句话说，就是在应用激活函数之前神经元的激活值。 Σ ķ（瓦特我Ĵ ķ ⋅ 一个我- 1 ķ）+ …

133 machine-learning neural-networks

5

主成分分析和多维缩放之间有什么区别？

PCA和传统MDS有何不同？MDS与非度量MDS怎么样？有一段时间您会更喜欢一个吗？解释有何不同？

133 pca multidimensional-scaling pcoa

2

如何确定哪种分布最适合我的数据？

我有一个数据集，想找出哪种分布最适合我的数据。我用了 fitdistr()函数来估计必要的参数，以描述假设的分布（即，威布尔，柯西，正态）。使用这些参数，我可以进行Kolmogorov-Smirnov检验来估计我的样本数据是否来自与假设分布相同的分布。如果p值> 0.05，我可以假设样本数据是从相同的分布中得出的。但是p值没有提供有关拟合度的任何信息，不是吗？因此，如果我的样本数据的p值对于正态分布以及Weibull分布> 0.05，那么我如何知道哪个分布更适合我的数据呢？这基本上就是我所做的： > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification