Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

1
决策树的深度
由于决策树算法在每个步骤都对属性进行分割,因此决策树的最大深度等于数据的属性数。它是否正确?

3
如何进行数据扩充和训练验证拆分?
我正在使用机器学习进行图像分类。 假设我有一些训练数据(图像),并将其分为训练和验证集。我还想通过随机旋转和噪声注入来增强数据(从原始图像生成新图像)。扩充是离线完成的。 进行数据扩充的正确方法是哪种? 首先将数据分为训练和验证集,然后对训练和验证集进行数据扩充。 首先将数据分为训练集和验证集,然后仅对训练集进行数据扩充。 首先对数据进行数据扩充,然后将数据分为训练和验证集。

1
Logistic回归和支持向量机之间的区别?
我知道逻辑回归可以找到一个将训练样本分开的超平面。我也知道,支持向量机会找到具有最大余量的超平面。 我的问题:逻辑回归(LR)和支持向量机(SVM)之间的区别是,LR找到任何将训练样本分开的超平面,而SVM找到具有最大余量的超平面吗?还是我错了? 注意:记得在LR中,当,逻辑函数给出。如果我们假设作为分类阈值,则是超平面或决策边界。θ ·&X = 0θ⋅X=0\theta \cdot x = 00.50.50.50.50.50.5θ ·&X = 0θ⋅X=0\theta \cdot x = 0

1
机器学习分类器big-O或complex
为了评估一种新的分类器算法的性能,我正在尝试比较准确性和复杂性(训练和分类中的big-O)。来自Machine Learning:a review,我得到了完整的监督分类器列表,还有算法之间的准确性表,以及来自UCI数据存储库的 44个测试问题。但是,对于常见的分类器,我找不到带有big-O的评论,论文或网站: C4.5 RIPPER(我认为这不可能,但谁知道) 人工神经网络与反向传播 朴素贝叶斯 神经网络 支持向量机 如果有人对这些分类器有任何表达,它将非常有用,谢谢。

3
在随机森林模型中加权最近的数据
我正在使用随机森林训练一个分类模型,以区分6个类别。我的交易数据大约有6万多个观察值和35个变量。这是一个大致的示例。 _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | 2013-05-10 | 78 | US | group3 | |555 | 2013-06-15 | …

1
在随机森林上使用LASSO
我想使用以下过程创建一个随机森林: 使用信息增益确定拆分,在数据和要素的随机样本上构建树 如果叶子节点超过预定深度,则终止该叶子节点,否则任何拆分都会导致叶子数少于预定最小值 而不是为每棵树分配一个类标签,而是在叶节点中分配类的比例 在构建了预定义数量之后停止构建树木 这从两个方面打破了传统的随机森林过程。第一,它使用分配比例而不是类标签的修剪树。第二,停止标准是树木的预定数量,而不是一些袋外误差估计。 我的问题是这样的: 对于上面输出N棵树的过程,我可以使用Logistic回归和LASSO选择来拟合模型吗?有没有人有经验适合随机森林分类器并使用逻辑LASSO进行后处理? ISLE框架提到使用LASSO作为回归问题(而非分类问题)的后处理步骤。此外,在搜索“随机森林套索”时,我没有得到任何有用的结果。

1
RandomForest-MDS图解说明
我使用randomForest根据8个变量(不同的身体姿势和动作)对6种动物行为进行了分类(例如,站立,行走,游泳等)。 randomForest软件包中的MDSplot给我该输出,并且在解释结果时遇到问题。我对相同的数据进行了PCA,并且已经在PC1和PC2中的所有类之间实现了很好的分隔,但是在这里Dim1和Dim2似乎仅分隔了3种行为。这是否意味着这三种行为比所有其他行为的相异性更高(因此MDS会尝试在变量之间找到最大的相异性,但不一定要在第一步中找到所有变量)?这三个群集的位置(例如在Dim1和Dim2中)指示什么?由于我对RI不太熟悉,因此在该图上绘制图例也有困难(但是我知道不同颜色的含义),但是也许有人可以帮忙吗?非常感谢!! 我在RandomForest中添加使用ClassCenter函数绘制的图。此功能还使用接近矩阵(与MDS图相同)来绘制原型。但是仅仅从查看六个不同行为的数据点来看,我不明白为什么邻近矩阵会像这样绘制我的原型。我还尝试了虹膜数据的classcenter函数,并且可以正常工作。但是似乎不适用于我的数据... 这是我用于此情节的代码 be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE) class1 <- classCenter(be[,-1], be[,1], be.rf$prox) Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))]) points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange")) 我的课程专栏是第一列,其后是8个预测变量。我将两个最佳预测变量绘制为x和y。

5
一类文字怎么做分类?
我必须处理文本分类问题。Web搜寻器搜寻特定域的网页,对于每个网页,我都想找出它是否仅属于一个特定类别。也就是说,如果我将此类称为Positive,则每个已抓取的网页都属于Positive类或Non-Positive类。 我已经有大量关于正面课程的培训网页。但是,如何为非阳性课程创建尽可能具有代表性的训练集呢?我的意思是,我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于正类的任意页面吗?我确定文本分类算法的性能(我更喜欢使用朴素贝叶斯算法)在很大程度上取决于我为非正类选择的网页。 那我该怎么办?有人可以给我个建议吗?非常感谢你!

3
神经网络隐藏激活函数的选择
我在其他地方读过,NN中隐藏层激活功能的选择应基于自己的需要,即,如果您需要-1到1范围内的值,请使用tanh并使用Sigmoid来表示0到1的范围。 我的问题是如何知道自己的需求?是否基于输入层的范围,例如使用可以包含输入层的整个值范围的函数,还是以某种方式反映输入层的分布(高斯函数)?还是选择特定的需求问题/领域,并需要一个人的经验/判断才能做出选择?还是仅仅是“使用能够提供最佳交叉验证的最小训练误差的东西?”

1
当对不平衡的类进行过度/欠采样时,最大化准确性与最小化错误分类成本是否有所不同?
首先,我想描述一些数据挖掘书籍用来解释如何处理不平衡数据集的常见布局。通常,主要部分名为不平衡数据集,它们涵盖了以下两个子部分:成本敏感分类和抽样技术。 似乎面对一个罕见的类问题,您可以执行成本敏感的分类和抽样。相反,我认为,如果稀有类别也是分类的目标,并且对该类别的记录进行错误分类的代价高昂,则应该应用成本敏感的技术。 另一方面,如果分类的目标总体上具有良好的准确性,而不关注特定类别,则采样技术(例如过采样和欠采样)将很有用。 这种信念来自MetaCost的基本原理,MetaCost是使分类器对成本敏感的一种通用方法:如果一个人希望使分类器对成本敏感,以便惩罚稀有类的分类错误,则他应该对另一类进行过采样。粗略地讲,分类器尝试适应其他类别,并且变为稀有类别所特有的。 这与对稀有类进行过度采样相反,这是解决此问题的通常建议方法。稀有类别的过采样或其他类别的过采样有助于提高整体准确性。 拜托,如果您确认我的想法,那将是很棒的。 如此说来,不平衡数据集面临的常见问题是: 我是否应该尝试获取与其他稀有记录一样多的稀有记录? 我的答案是,如果您正在寻找准确性:好的。您可以执行此操作,以查找更多罕见的类示例,或者删除其他类的某些记录。 如果您使用成本敏感技术专注于稀有类,我会回答:您只能找到更多稀有类示例,但不应删除其他类的记录。在后一种情况下,您将无法让分类器适应其他类别,并且罕见的类别错误分类错误可能会增加。 你会怎么回答?

3
可以使CART模型健壮吗?
我办公室的一位同事今天对我说:“树模型不好,因为它们被极端的观察所捕获”。 此处的搜索导致该线程基本上支持该声明。 这就引出了我的问题-在什么情况下CART模型可以保持稳健,如何显示?

2
当选择的特征数量减少时,为什么随机森林OOB误差估计会提高?
我在微阵列数据集上应用随机森林算法作为分类器,将其分为两个已知的具有1000多个特征的组。初次运行后,我查看了这些功能的重要性,并使用5个,10个和20个最重要的功能再次运行树算法。 我发现,对于所有功能,前10位和前20位的OOB错误率估计为1.19%,而前5位功能的错误率为0%。 这对我来说似乎是违反直觉的,因此我想知道您是否可以解释我是否缺少某些内容或使用了错误的指标。 我在ntree = 1000,nodesize = 1和mtry = sqrt(n)中使用R中的randomForest包


1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.