统计和大数据 machine-learning

2

我正在阅读具有深度卷积神经网络的ImageNet分类论文，在第3节中，他们解释了卷积神经网络的体系结构，并解释了如何使用以下方法：非饱和非线性f(x)=max(0,x).f(x)=max(0,x)。f(x) = max(0, x). 因为训练起来更快。在那篇论文中，他们似乎将饱和非线性称为CNN中使用的更传统的函数，S形和双曲正切函数（即F（X ）= 吨一个Ñ ħ （X ）F（X）=Ť一种ñH（X）f(x) = tanh(x)和F（x ）= 11 + e− x= （1 + e− x）− 1F（X）=1个1个+Ë-X=（1个+Ë-X）-1个f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}为饱和）。他们为什么将这些功能称为“饱和”或“非饱和”？这些功能在什么意义上是“饱和”或“非饱和”的？这些术语在卷积神经网络的背景下意味着什么？它们是否用于其他机器学习（和统计）领域？

30 machine-learning neural-networks terminology conv-neural-network

4

我什么时候应该在培训数据集中平衡课程？

我有一个在线课程，据我了解，训练数据中的班级不平衡可能会导致问题，因为分类算法遵循多数原则，因为如果不平衡过多，分类结果就会很好。在一项作业中，必须通过对多数类进行欠采样来平衡数据。但是，在此博客中，有人声称平衡数据甚至更糟： https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 那么是哪一个呢？我应该平衡数据吗？它是否取决于所使用的算法，因为某些算法可能会适应不平衡的类比例？如果是这样，哪一个对不平衡数据是可靠的？

29 machine-learning classification unbalanced-classes

5

在统计学和机器学习中区分两组：假设检验vs.分类vs.聚类

假设我有两个数据组，分别标记为A和B（每个数据组包含200个样本和1个特征），我想知道它们是否不同。我可以： a）进行统计检验（例如t检验）以查看它们是否在统计上不同。 b）使用监督机器学习（例如，支持向量分类器或随机森林分类器）。我可以对部分数据进行训练，然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类，那么我可以确定样本是可区分的。 c）使用无监督算法（例如K-Means），然后将所有数据分为两个样本。然后，我可以检查找到的这两个样本是否与我的标签A和B一致。我的问题是：这三种不同方式如何重叠/排斥？ b）和c）对任何科学论证有用吗？如何从方法b）和c）中获得样品A和B之间差异的“重要性”？如果数据具有多个功能而不是1个功能，将会发生什么变化？如果它们包含不同数量的样本（例如100对300）会怎样？

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

为什么在神经网络中使用偏置节点？

为什么在神经网络中使用偏置节点？您应该使用几个？您应该在哪些层中使用它们：所有隐藏层和输出层？

29 machine-learning neural-networks bias-node

2

对SVM和随机森林进行归一化是否必不可少？

我的功能的每个维度都有不同的价值范围。我想知道标准化此数据集是否必要。

29 machine-learning svm random-forest normalization

3

SVM和感知器之间的区别

我对SVM和感知器之间的区别感到困惑。让我尝试在这里总结一下我的理解，请随时纠正我的错误之处，并填写我错过的内容。感知器不会尝试优化分离“距离”。只要找到一个将这两个集合分开的超平面，那就很好了。另一方面，SVM试图最大化“支持向量”，即两个最接近的相对采样点之间的距离。 SVM通常尝试使用“内核函数”将采样点投影到高维空间，以使它们线性可分离，而感知器假定采样点是线性可分离的。

29 machine-learning svm kernel-trick

6

二进制分类的变量选择过程

当变量/特征比学习集中的观察数多时，您更喜欢二进制分类的变量/特征选择是什么？这里的目的是讨论什么是可以最大程度减少分类错误的特征选择过程。我们可以修复符号为：一致性，让从组是学习组观察的。因此是学习集的大小。我们将设置为要素数量（即要素空间的维）。令表示个坐标。{ X 我1，... ，X 我Ñ 我 } 我Ñ 0 + ñ 1 = Ñ p X [ 我] 我X ∈ [R pi∈{0,1}i∈{0,1}i \in \{0, 1\}{ x一世1个，… ，x一世ñ一世}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}一世iiñ0+ n1个= nn0+n1=nn_0 + n_1 = npppx [ i ]x[i]x[i]一世iiX ∈ řpx∈Rpx \in \mathbb{R}^p 如果您无法提供详细信息，请提供完整的参考。编辑（不断更新）：以下答案中提出的程序贪婪的前向选择二元分类的变量选择过程向后消除二进制分类的变量选择过程 Metropolis扫描/ MCMC …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

3

使用scikit-learn进行多项式回归

我正在尝试使用scikit-learn进行多项式回归。从我的理解中，多项式回归是线性回归的特例。我希望可以对scikit的广义线性模型之一进行参数化以适合高阶多项式，但是我认为没有选择的余地。我确实设法使用了支持向量回归器和多核。这对我的数据子集效果很好，但是要适应较大的数据集需要花费很长时间，因此我仍然需要更快地找到某些东西（即使以某种精度进行交易）。我在这里错过明显的东西吗？

29 regression machine-learning large-data polynomial scikit-learn

4

您如何解释RMSLE（均方根对数误差）？

我一直在进行机器学习竞赛，他们使用RMSLE（均方根对数误差）评估性能，从而预测一类设备的销售价格。问题是我不确定如何解释最终结果的成功。例如，如果我达到了的RMSLE，是否可以将它的指数幂提高并像rmse一样解释它？（即）？e e 1.052 = 2.863 = R M S E1.0521.0521.052ËËeË1.052= 2.863 = R M小号ËË1.052=2.863=[R中号小号Ëe^{1.052}=2.863=RMSE 然后，我能否说我的预测平均为实际价格的？还是有更好的方法来解释指标？还是除了与其他模型的其他RMSLE进行比较外，甚至可以完全解释该指标？ ± $ 2.863±$2.863\pm \$2.863

29 regression machine-learning interpretation measurement-error theory

2

如何统计比较机器学习分类器的性能？

基于估计的分类准确性，我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器，我从基本集中随机选择一个训练和测试样本，训练模型并测试模型。每个分类器我都会做十次。因此，每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用？Ç 升一个小号小号我˚F我ë - [R 1C升一种ss一世F一世Ë[R1个classifier 1Ç 升一个小号小号我˚F我ë - [R 2C升一种ss一世F一世Ë[R2classifier 2

29 machine-learning classification t-test

3

R：尽管数据集中没有NaN，随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]

我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN，Inf或NA。但是，当运行随机森林时，我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

sklearn分类报告中的数字是什么意思？

下面是从sklearn的sklearn.metrics.classification_report文档中提取的示例。我不明白的是，为什么我认为班级是预测变量的标签，为什么每个班级都有f1-得分，精度和召回率值？我认为f1分数可以告诉您模型的整体准确性。另外，支持专栏告诉我们什么？我找不到任何相关信息。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

29 machine-learning python scikit-learn precision-recall

3

为什么分类准确度较低的AUC比准确度较高的分类器更高？

我有两个分类器答：朴素的贝叶斯网络 B：树（单连接）贝叶斯网络在准确性和其他度量方面，A的性能比B差。但是，当我使用R包ROCR和AUC进行ROC分析时，事实证明A的AUC高于B的AUC。这是为什么发生了什么？真阳性（tp），假阳性（fp），假阴性（fn），真阴性（tn），敏感性（sen），特异性（spec），阳性预测值（ppv），阴性预测值（npv）和A和B的精度（acc）如下。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

29 machine-learning classification roc auc bayesian-network

2

SVM算法背后的统计模型是什么？

我了解到，在使用基于模型的方法处理数据时，第一步是将数据过程建模为统计模型。然后，下一步就是基于此统计模型开发有效/快速的推理/学习算法。所以我想问问支持向量机（SVM）算法背后的统计模型是什么？

28 machine-learning svm modeling

Questions tagged «machine-learning»