统计和大数据 classification

3

我正在使用R中的gbm包处理一些大型数据集。我的预测变量矩阵和响应向量都很稀疏（即，大多数条目为零）。我希望使用一种可以利用这种稀疏性的算法来构建决策树，就像在这里所做的那样。在该论文中，就像我所遇到的情况一样，大多数项目只有许多可能的功能中的少数，因此，除非数据中另有明确说明，否则它们可以通过假设其项目缺少给定功能来避免大量的计算浪费。我的希望是，通过使用这种算法（然后将增强算法包装在其周围以提高预测精度），我可以获得类似的加速效果。由于他们似乎没有发布代码，所以我想知道是否有针对这种情况优化的开源软件包或库（任何语言）。理想情况下，我想要一种可以直接从R的Matrix包装中获取稀疏矩阵的东西，但我将尽我所能。我环顾四周，看来应该是这样的事情：化学家似乎经常遇到这个问题（我上面链接的文章是关于学习寻找新的药物化合物的），但是我可以找到的实现是化学分析的专有或高度专业化的实现。不过，其中之一可能会被重新利用。文档分类似乎也是从稀疏特征空间学习的一个有用的领域（大多数文档包含的单词不多）。例如，有一个倾斜的参考稀疏实施C4.5的（一个手推车类算法）在本文中，但不包含代码。根据邮件列表，WEKA可以接受稀疏数据，但是与我上面链接的论文中的方法不同，WEKA在避免浪费CPU周期方面并未进行优化以实际利用它。提前致谢！

11 r regression machine-learning classification cart

1

减少无序分类预测变量的级别数

我想训练一个分类器，例如SVM，随机森林或任何其他分类器。数据集中的特征之一是具有1000个级别的分类变量。减少此变量的级别数的最佳方法是什么。在R combine.levels()中，Hmisc程序包中有一个函数，它结合了很少的级别，但是我在寻找其他建议。

11 classification svm random-forest many-categories

2

如何理解卷积深度信念网络进行音频分类？

Lee等人在“ 用于分层表示的可扩展无监督学习的卷积深度信念网络 ”中。（PDF）提出了卷积DBN。还对该方法进行了图像分类评估。这听起来很合逻辑，因为具有自然的局部图像特征，例如小角和边缘等。 Lee等人在“ 使用卷积深度置信网络进行音频分类的无监督特征学习 ”中。等此方法适用于不同类别的音频。说话者识别，性别识别，电话分类以及一些音乐流派/艺术家分类。如何将网络的卷积部分解释为音频，就像将图像解释为边缘一样？

11 classification unsupervised-learning intuition deep-belief-networks

3

为什么我们需要拟合k最近邻分类器？

据我了解，k-NN是一种惰性学习器算法，不需要培训阶段。那么，为什么我们需要.fit()与sklearn一起使用？当我们使用它时会发生什么？

11 classification scikit-learn k-nearest-neighbour

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

机器学习技术，用于学习字符串模式

我有一个单词列表，属于不同的自定义类别。每个类别都有其自己的模式（例如，一个具有固定长度的特殊字符，另一种仅存在于“单词”的类别中的字符，...）。例如： "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 我正在寻找一种机器学习技术，根据训练数据自行学习这些模式。我已经尝试自己定义一些预测变量（例如，字长，特殊字符的数量...），然后使用神经网络来学习和预测类别。但这根本不是我想要的。我希望有一种技术可以自己学习每个类别的模式，甚至可以学习我从未想过的模式。因此，我提供了算法学习数据（由单词类别示例组成），并希望它学习每种类别的模式，以便以后根据相似或相等的单词来预测类别。有最先进的方法吗？谢谢你的帮助

11 machine-learning classification similarities supervised-learning

3

精度可调的分类器与召回率

我正在研究二进制分类问题，在这个问题上更重要的是不要出现误报。相当多的假阴性是可以的。例如，我在sklearn中使用了一堆分类器，但我认为它们都不具有显式调整精确度调用权衡的能力（它们确实产生了很好的结果，但无法调整）。哪些分类器的精度/召回率可调？有什么方法可以影响标准分类器（例如，Random Forest或AdaBoost）的精度/召回权衡吗？

11 classification precision-recall

2

为什么选择Adaboost和决策树？

我已经阅读了一些有关分类任务的增强算法，尤其是Adaboost。我了解Adaboost的目的是招募几个“弱学习者”，并通过对训练数据进行一系列迭代，推动分类器学习预测模型反复犯错的类。但是，我想知道为什么我所做的许多阅读都使用决策树作为弱分类器。是否有特定原因？是否有某些分类对于Adaboost而言特别好坏？

11 machine-learning classification algorithms boosting

3

什么是精确召回曲线的良好AUC？

因为我的数据集非常不平衡（9％的积极结果），所以我决定精确召回曲线比ROC曲线更合适。我获得了PR曲线下面积的类似汇总度量值（如果您有兴趣，则为.49），但是不确定如何解释它。我听说.8或以上才是ROC的一个好AUC，但是对于精确召回曲线而言，AUC的一般截止点会是一样的吗？

11 classification precision-recall auc

1

Jeffries Matusita距离的优点

根据我正在阅读的一些论文，Jeffries和Matusita距离是常用的。但是除了下面的公式，我找不到更多的信息 JMD（x，y）=∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} 除平方根外，它与欧几里得距离相似 E（x，y）=∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} 在分类方面，据称JM距离比欧几里得距离更可靠。谁能解释为什么这种差异使JM距离更好？

11 classification k-nearest-neighbour euclidean

1

我们如何预测罕见事件？

我正在开发保险风险预测模型。这些模型具有“罕见事件”的特征，例如航空公司的空机预测，硬件故障检测等。准备数据集时，我尝试应用分类，但是由于否定案例的比例很高，因此无法获得有用的分类器。除了高中统计课程外，我在统计和数据建模方面没有太多经验，所以我有点困惑。首先想到的是，我一直在考虑使用不均匀的泊松过程模型。我根据事件数据（日期，纬度，经度）对它进行了分类，从而可以很好地估计在特定日期，特定地点的特定时间发生风险的可能性。我想知道，预测稀有事件的方法/算法是什么？您如何建议您解决此问题？

11 classification predictive-models scikit-learn poisson-process

1

如何选择罕见事件的Logistic回归的截止概率

我有100,000个观察值（9个虚拟指标变量），具有1000个正值。Logistic回归在这种情况下应该可以正常工作，但临界概率使我感到困惑。在普通文献中，我们选择50％截止值来预测1和0。我无法执行此操作，因为我的模型给出的最大值约为1％。因此，阈值可以在0.007或附近。我确实了解ROC曲线以及曲线下的面积如何帮助我在同一数据集的两个LR模型之间进行选择。但是，ROC并不能帮助我选择最佳截断概率，该概率可以用来对样本外数据进行模型测试。我是否应该简单地使用最小化阈值的截止值misclassification rate？（http://www2.sas.com/proceedings/sugi31/210-31.pdf）添加->对于如此低的事件发生率，我的错误分类率受到大量误报的影响。虽然总体宇宙的大小也很大，但总体上看来该比率很高，但是我的模型不应有那么多的误报（因为它是投资回报模型）。5/10系数很重要。

11 regression logistic classification generalized-linear-model roc

3

第一个主要组件不会分隔类别，而其他PC会分开。那怎么可能？

我对17个定量变量运行了PCA，以获取较小的变量集（即主要成分），该变量集用于有监督的机器学习中，用于将实例分为两类。在PCA之后，PC1占数据方差的31％，PC2占数据的17％，PC3占10％，PC4占8％，PC5占7％，PC6占6％。但是，当我看两类计算机之间的均值差异时，令人惊讶的是，PC1不能很好地区分两类计算机。剩下的PC就是很好的鉴别器。另外，PC1在决策树中使用时变得无关紧要，这意味着在修剪树后甚至在树中都不存在它。该树由PC2-PC6组成。这个现象有什么解释吗？衍生变量会出问题吗？

11 machine-learning classification pca dimensionality-reduction

4

不确定类别标签的分类器

假设我有一组与类标签相关联的实例。不要紧，怎么这些情况下进行标记，但如何某些他们班的成员是。每个实例恰好属于一个类。假设我可以使用从1到3的名义属性（分别非常确定和不确定）来量化每个类成员的确定性。是否有某种分类器考虑了这样的确定性度量，如果是，则在WEKA工具箱中可用吗？我想这种情况经常发生，例如，当实例不是由人完全确定时，就由人对它们进行分类。就我而言，我必须对图像进行分类，有时图像可能属于多个类别。如果发生这种情况，我会给班级带来很大的不确定性，但仍然只对一个班级进行分类。或者，没有专门的分类器，还有其他方法可以解决此问题吗？例如，仅采用“某些”分类进行培训？我担心在这种情况下，会出现更多的错误分类，因为没有涵盖“边界”案件。

11 classification weka uncertainty

1

随机森林算法步骤背后的动机

我熟悉的用于构建随机森林的方法如下：（来自http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm）要在森林中建树，我们：引导一个大小为N的样本，其中N是我们的训练集的大小。使用此引导示例作为此树的训练集。在树的每个节点上，随机选择M个特征中的m个。在这m个功能中选择最佳以进行拆分。（其中m是我们的随机森林的参数）使每棵树最大程度地生长-即不修剪。虽然此算法在程序级别上有意义并且肯定会产生良好的结果，但我不清楚步骤1、2和3背后的理论动机是什么。请问有人可以解释是什么促使有人提出了此过程以及为什么要这样做效果很好？例如：为什么我们需要执行步骤1？似乎我们没有为减少偏差的通常目的而自举。

11 machine-learning classification random-forest

Questions tagged «classification»