Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
术语“饱和非线性”是什么意思?
我正在阅读具有深度卷积神经网络的ImageNet分类论文,在第3节中,他们解释了卷积神经网络的体系结构,并解释了如何使用以下方法: 非饱和非线性f(x)=max(0,x).f(x)=max(0,x)。f(x) = max(0, x). 因为训练起来更快。在那篇论文中,他们似乎将饱和非线性称为CNN中使用的更传统的函数,S形和双曲正切函数(即F(X )= 吨一个Ñ ħ (X )F(X)=Ť一种ñH(X)f(x) = tanh(x)和F(x )= 11 + e− x= (1 + e− x)− 1F(X)=1个1个+Ë-X=(1个+Ë-X)-1个f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}为饱和)。 他们为什么将这些功能称为“饱和”或“非饱和”?这些功能在什么意义上是“饱和”或“非饱和”的?这些术语在卷积神经网络的背景下意味着什么?它们是否用于其他机器学习(和统计)领域?

4
我什么时候应该在培训数据集中平衡课程?
我有一个在线课程,据我了解,训练数据中的班级不平衡可能会导致问题,因为分类算法遵循多数原则,因为如果不平衡过多,分类结果就会很好。在一项作业中,必须通过对多数类进行欠采样来平衡数据。 但是,在此博客中,有人声称平衡数据甚至更糟: https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 那么是哪一个呢?我应该平衡数据吗?它是否取决于所使用的算法,因为某些算法可能会适应不平衡的类比例?如果是这样,哪一个对不平衡数据是可靠的?

5
在统计学和机器学习中区分两组:假设检验vs.分类vs.聚类
假设我有两个数据组,分别标记为A和B(每个数据组包含200个样本和1个特征),我想知道它们是否不同。我可以: a)进行统计检验(例如t检验)以查看它们是否在统计上不同。 b)使用监督机器学习(例如,支持向量分类器或随机森林分类器)。我可以对部分数据进行训练,然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类,那么我可以确定样本是可区分的。 c)使用无监督算法(例如K-Means),然后将所有数据分为两个样本。然后,我可以检查找到的这两个样本是否与我的标签A和B一致。 我的问题是: 这三种不同方式如何重叠/排斥? b)和c)对任何科学论证有用吗? 如何从方法b)和c)中获得样品A和B之间差异的“重要性”? 如果数据具有多个功能而不是1个功能,将会发生什么变化? 如果它们包含不同数量的样本(例如100对300)会怎样?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 



3
SVM和感知器之间的区别
我对SVM和感知器之间的区别感到困惑。让我尝试在这里总结一下我的理解,请随时纠正我的错误之处,并填写我错过的内容。 感知器不会尝试优化分离“距离”。只要找到一个将这两个集合分开的超平面,那就很好了。另一方面,SVM试图最大化“支持向量”,即两个最接近的相对采样点之间的距离。 SVM通常尝试使用“内核函数”将采样点投影到高维空间,以使它们线性可分离,而感知器假定采样点是线性可分离的。

6
二进制分类的变量选择过程
当变量/特征比学习集中的观察数多时,您更喜欢二进制分类的变量/特征选择是什么?这里的目的是讨论什么是可以最大程度减少分类错误的特征选择过程。 我们可以修复符号为:一致性,让从组是学习组观察的。因此是学习集的大小。我们将设置为要素数量(即要素空间的维)。令表示个坐标。{ X 我1,... ,X 我Ñ 我 } 我Ñ 0 + ñ 1 = Ñ p X [ 我] 我X ∈ [R pi∈{0,1}i∈{0,1}i \in \{0, 1\}{ x一世1个,… ,x一世ñ一世}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}一世iiñ0+ n1个= nn0+n1=nn_0 + n_1 = npppx [ i ]x[i]x[i]一世iiX ∈ řpx∈Rpx \in \mathbb{R}^p 如果您无法提供详细信息,请提供完整的参考。 编辑(不断更新):以下答案中提出的程序 贪婪的前向选择 二元分类的变量选择过程 向后消除 二进制分类的变量选择过程 Metropolis扫描/ MCMC …

3
使用scikit-learn进行多项式回归
我正在尝试使用scikit-learn进行多项式回归。从我的理解中,多项式回归是线性回归的特例。我希望可以对scikit的广义线性模型之一进行参数化以适合高阶多项式,但是我认为没有选择的余地。 我确实设法使用了支持向量回归器和多核。这对我的数据子集效果很好,但是要适应较大的数据集需要花费很长时间,因此我仍然需要更快地找到某些东西(即使以某种精度进行交易)。 我在这里错过明显的东西吗?

4
您如何解释RMSLE(均方根对数误差)?
我一直在进行机器学习竞赛,他们使用RMSLE(均方根对数误差)评估性能,从而预测一类设备的销售价格。问题是我不确定如何解释最终结果的成功。 例如,如果我达到了的RMSLE,是否可以将它的指数幂提高并像rmse一样解释它?(即)?e e 1.052 = 2.863 = R M S E1.0521.0521.052ËËeË1.052= 2.863 = R M小号ËË1.052=2.863=[R中号小号Ëe^{1.052}=2.863=RMSE 然后,我能否说我的预测平均为实际价格的?还是有更好的方法来解释指标?还是除了与其他模型的其他RMSLE进行比较外,甚至可以完全解释该指标? ± $ 2.863±$2.863\pm \$2.863

2
如何统计比较机器学习分类器的性能?
基于估计的分类准确性,我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器,我从基本集中随机选择一个训练和测试样本,训练模型并测试模型。每个分类器我都会做十次。因此,每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用?Ç 升一个小号小号我˚F我ë - [R 1C升一种ss一世F一世Ë[R1个classifier 1Ç 升一个小号小号我˚F我ë - [R 2C升一种ss一世F一世Ë[R2classifier 2

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
sklearn分类报告中的数字是什么意思?
下面是从sklearn的sklearn.metrics.classification_report文档中提取的示例。 我不明白的是,为什么我认为班级是预测变量的标签,为什么每个班级都有f1-得分,精度和召回率值?我认为f1分数可以告诉您模型的整体准确性。另外,支持专栏告诉我们什么?我找不到任何相关信息。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

3
为什么分类准确度较低的AUC比准确度较高的分类器更高?
我有两个分类器 答:朴素的贝叶斯网络 B:树(单连接)贝叶斯网络 在准确性和其他度量方面,A的性能比B差。但是,当我使用R包ROCR和AUC进行ROC分析时,事实证明A的AUC高于B的AUC。这是为什么发生了什么? 真阳性(tp),假阳性(fp),假阴性(fn),真阴性(tn),敏感性(sen),特异性(spec),阳性预测值(ppv),阴性预测值(npv)和A和B的精度(acc)如下。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

2
SVM算法背后的统计模型是什么?
我了解到,在使用基于模型的方法处理数据时,第一步是将数据过程建模为统计模型。然后,下一步就是基于此统计模型开发有效/快速的推理/学习算法。所以我想问问支持向量机(SVM)算法背后的统计模型是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.