Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。


8
如何帮助确保测试数据不会泄漏到训练数据中?
假设我们有一个人建立了预测模型,但是不一定有人对适当的统计或机器学习原理很精通。也许我们正在帮助那个人在学习中,或者那个人正在使用某种需要最少知识的软件包。 现在,这个人可能会很好地认识到真正的测试来自样本外数据的准确性(或其他任何度量标准)。但是,我担心的是,这里有很多微妙的问题要担心。在简单的情况下,他们建立模型并根据训练数据对其进行评估,并根据保留的测试数据对其进行评估。不幸的是,有时返回该位置并调整一些建模参数并检查相同“测试”数据的结果有时太容易了。此时,数据不再是真正的样本外数据,过拟合可能会成为问题。 解决此问题的一种可能方法是建议创建许多样本外数据集,以使每个测试数据集在使用后都可以丢弃,而根本无法再使用。但是,这需要大量的数据管理,尤其是必须在分析之前完成拆分(因此,您需要事先知道有多少拆分)。 也许更常规的方法是k倍交叉验证。但是,从某种意义上讲,我认为“训练”和“测试”数据集之间的区别会消失,特别是对于那些仍在学习的人。同样,我也不认为这对所有类型的预测模型都有意义。 有什么方法可以被我忽略,以帮助克服过度安装和测试泄漏的问题,同时仍然对没有经验的用户保持一定的了解?

6
R中逻辑回归的替代方法
我想要执行与逻辑回归相同任务的许多算法。也就是说,可以使用一些解释变量(X)预测二进制响应(Y)的算法/模型。 如果为算法命名后,如果您还演示如何在R中实现它,我将非常高兴。这是一个可以用其他模型更新的代码: set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')


5
什么时候不平衡数据真的是机器学习中的问题?
使用logistic回归,SVM,决策树,装袋和许多其他类似问题时,我们已经对不平衡数据提出了多个问题,这使它成为一个非常受欢迎的话题!不幸的是,每个问题似乎都是特定于算法的,我没有找到任何处理不平衡数据的通用准则。 引用Marc Claesen的答案之一,处理不平衡数据 (...)在很大程度上取决于学习方法。大多数通用方法都有一种(或几种)方法来解决此问题。 但是,到底什么时候我们应该担心数据不平衡?哪些算法最受它影响,哪些能够处理?我们需要哪种算法来平衡数据?我知道在像这样的问答网站上讨论每种算法都是不可能的,我宁愿寻找有关何时可能出现问题的一般准则。



4
分类概率阈值
我有一个关于分类的问题。令f为一个分类器,在给定一些数据D的情况下输出一组概率。通常,人们会说:好吧,如果P(c | D)> 0.5,我们将分配一个类1,否则将分配一个0(将其设为二进制)分类)。 我的问题是,如果我发现,如果我将概率也大于1,即0.2,则分类器的性能会更好。在进行分类时使用此新阈值是否合法? 我将解释在数据发出较小信号的情况下降低分类界限的必要性;但对于分类问题仍然很重要。 我意识到这是一种实现方法,但是如果这不是正确的想法,那将是什么数据转换,它们以类似的方式强调各个特征,因此阈值可以保持在0.5?



2
随机森林假设
我是随机森林的新手,所以我仍在努力解决一些基本概念。 在线性回归中,我们假设独立的观测值,恒定方差... 使用随机森林时,我们做出的基本假设/假设是什么? 就模型假设而言,随机森林和朴素贝叶斯之间的主要区别是什么?

6
时间序列分类的功能
我考虑基于可变长度时间序列的(多类)分类问题,即找到函数 通过时间的全局表示,由固定大小为的一组选定特征独立于, 然后对该功能集使用标准分类方法。 我对预测不感兴趣,即预测˚F (X Ť)= ÿ ∈ [ 1 .. ķ ]TTTf(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, viviv_iDDDTTTϕ(XT)=v1,…,vD∈R ,ϕ(XT)=v1,…,vD∈R ,\phi(X_T) = v_1, \dots, v_D \in \mathbb{R}~,xT+1xT+1x_{T+1}。例如,我们可以分析人的行走方式以预测其性别。 我可能要考虑哪些标准功能? 例如,我们可以明显地使用序列的均值和方差(或更高阶矩),也可以查看频域,就像该序列的离散傅里叶变换(或离散小波变换)的某个间隔中包含的能量一样。

4
针对不平衡数据训练决策树
我是数据挖掘的新手,我正在尝试针对高度不平衡的数据集训练决策树。但是,我遇到了预测准确性较差的问题。 数据由学习课程的学生组成,班级变量是课程状态,具有两个值-撤回或当前。 年龄 种族 性别 课程 ... 课程状态 在数据集中,当前的实例多于撤回的实例。撤消的实例仅占实例总数的2%。 我希望能够建立一个模型,该模型可以预测一个人将来会退出的可能性。但是,当针对训练数据测试模型时,模型的准确性非常糟糕。 我在决策树中也遇到过类似的问题,决策树中的数据由一两个类控制。 我可以使用哪种方法来解决此问题并建立更准确的分类器?

6
为什么要降采样?
假设我想学习一个预测电子邮件是否为垃圾邮件的分类器。假设只有1%的电子邮件是垃圾邮件。 最简单的方法是学习琐碎的分类器,该分类器说所有电子邮件都不是垃圾邮件。该分类器将为我们提供99%的准确性,但它不会学到任何有趣的东西,并且误报率高达100%。 为了解决这个问题,人们告诉我“降低采样率”,或学习其中50%的示例是垃圾邮件而50%的示例不是垃圾邮件的数据子集。 但是我担心这种方法,因为一旦我们建立了此分类器并开始在真实的电子邮件主体(而不是50/50测试集)上使用它,它可能会预测许多电子邮件在成为垃圾邮件时真的不是。只是因为它过去经常看到比数据集中实际更多的垃圾邮件。 那么我们如何解决这个问题呢? (“上采样”或多次重复正面训练示例,因此50%的数据是正面训练示例,似乎也遇到类似的问题。)

9
如何解释F度量值?
我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。 例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.