Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

2
确定SVM最佳C和伽玛参数的搜索范围是什么?
我正在使用SVM进行分类,并且正在尝试确定线性和RBF内核的最佳参数。对于线性内核,我使用交叉验证的参数选择来确定C,对于RBF内核,我使用网格搜索来确定C和伽马。 我有20个(数字)功能和70个训练示例,应该将其分为7类。 我应该使用哪个搜索范围来确定C和gamma参数的最佳值?

3
天真贝叶斯如何成为线性分类器?
我在这里看到了另一个主题,但我认为答案不能满足实际问题。我一直读到的是,朴素贝叶斯是使用对数赔率演示的线性分类器(例如:here)(它绘制了线性决策边界)。 但是,我模拟了两个高斯云并拟合了决策边界,并得到了这样的结果(r中的库e1071,使用naiveBayes()) 如我们所见,决策边界是非线性的。是否要说参数(条件概率)是对数空间中的线性组合,而不是说分类器本身是线性地分离数据?

2
R中随机森林分类中一组预测变量的相对重要性
我想确定变量集对randomForestR中的分类模型的相对重要性。该importance函数MeanDecreaseGini为每个单独的预测变量提供度量标准-是否像对集合中的每个预测变量求和一样简单? 例如: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?


3
班级失衡问题的根本原因是什么?
最近,我一直在思考机器/统计学习中的“班级不平衡问题”,并且越来越深地感觉到我只是不了解发生了什么。 首先让我定义(或尝试)定义我的术语: 机器/统计学习中的类不平衡问题是观察到,当0类与1类的比例非常不正确时,某些二进制分类算法(*)不能很好地执行。 因此,例如,在上面的示例中,如果每一个类有100个类,那么我会说类不平衡为到或。0001111111001001001%1%1\% 我见过的大多数问题陈述都缺乏我认为足够的资格(什么模型在挣扎,问题如何失衡),这是我感到困惑的原因之一。 对机器/统计学习中的标准文本的调查几乎没有: 统计学习和统计学习入门的要素在索引中不包含“班级失衡”。 用于预测数据分析的机器学习在索引中也不包含“类不平衡”。 墨菲的机器学习:概率观点 的确在索引中包含“类不平衡*。参考是关于SVM的一节,我在其中找到了以下诱人的评论: 值得记住的是,所有这些困难,以及为解决这些困难而提出的大量启发式方法,都从根本上出现,因为SVM无法使用概率对不确定性进行建模,因此它们的输出得分在各个类别之间不具有可比性。 此评论确实符合我的直觉和经验:在我以前的工作中,我们通常将逻辑回归和梯度增强树模型(以最小化二项式对数似然性)拟合到不平衡数据(类不平衡程度为),在性能上没有明显的问题。1%1%1\% 我已经(在某处)阅读了基于分类树的模型(树本身和随机森林)也确实遭受了类不平衡问题的困扰。从某种意义上讲,这会使水有些混乱,树木确实有返回概率:在树的每个终端节点中目标类的投票记录。 因此,总的来说,我真正想要的是对导致班级失衡问题(如果存在)的力量的概念性理解。 我们使用错误选择的算法和惰性默认分类阈值对自己做了什么吗? 如果我们始终拟合优化适当评分标准的概率模型,它会消失吗?换句话说,原因仅仅是损失函数的选择不正确,即基于硬分类规则和整体准确性评估模型的预测能力吗? 如果是这样,那么没有优化适当评分规则的模型就没有用(或者至少没有用处)吗? (*)分类是指适合二进制响应数据的任何统计模型。我没有假设我的目标是对一个班级或另一个班级进行艰巨的任务,尽管可能是这样。

3
如何确定多分类器的质量
给定 具有实例和类的数据集,其中每个实例恰好属于一个类xixix_iNNNxixix_iyiyiy_i 多类分类器 经过训练和测试之后,我基本上有了一张表,其中包含测试集中每个实例的真实类和预测类。因此,对于每个实例,我都有一个匹配项()或一个未命中()。yiyiy_iaiaia_ixixix_iyi=aiyi=aiy_i= a_iyi≠aiyi≠aiy_i\neq a_i 如何评估比赛的质量?问题是某些类可以具有许多成员,即,许多实例属于该类。显然,如果所有数据点的50%属于一个类,而我的最终分类器总体上是正确的50%,那么我什么也得不到。我也可以做一个琐碎的分类器,无论输入什么,它都能输出最大的分类。 是否有一种标准方法根据每个类的匹配和匹配的已知测试集结果来估计分类器的质量?区分每个特定类别的匹配率也许甚至很重要? 我能想到的最简单的方法是排除最大类的正确匹配。还有什么?

7
统计的分支是什么?
在数学中,存在诸如代数,分析,拓扑等分支。在机器学习中,有监督,无监督和强化学习。在每个分支中,都有更精细的分支,这些分支进一步划分了方法。 我在绘制统计数据方面遇到麻烦。统计学的主要分支(和分支)是什么?不可能有一个完美的分区,但是有什么比大空白图更好的了。 视觉示例:

4
我什么时候应该在培训数据集中平衡课程?
我有一个在线课程,据我了解,训练数据中的班级不平衡可能会导致问题,因为分类算法遵循多数原则,因为如果不平衡过多,分类结果就会很好。在一项作业中,必须通过对多数类进行欠采样来平衡数据。 但是,在此博客中,有人声称平衡数据甚至更糟: https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 那么是哪一个呢?我应该平衡数据吗?它是否取决于所使用的算法,因为某些算法可能会适应不平衡的类比例?如果是这样,哪一个对不平衡数据是可靠的?

4
ROC曲线下面积与整体精度
关于ROC的曲线下面积(AUC)和整体精度,我有些困惑。 AUC是否与整体精度成正比?换句话说,当我们具有更高的整体精度时,我们肯定会获得更大的AUC吗?还是按照定义它们是正相关的? 如果它们是正相关的,为什么我们还要在某些出版物中同时报告它们呢? 在实际情况下,我执行了一些分类任务,结果如下:分类器A的准确度为85%,AUC为0.98,分类器B的准确度为93%,AUC为0.92。问题是,哪个分类器更好?还是有可能获得类似的结果(我的意思是说我的实现中可能存在错误)?

2
朴素贝叶斯与多项式朴素贝叶斯之间的区别
我之前已经处理过朴素贝叶斯分类器。我最近一直在阅读有关朴素贝叶斯的多项式。 也后验概率=(现有*似然)/(证据)。 我发现朴素贝叶斯与多项式朴素贝叶斯之间的唯一主要区别(在对这些分类器进行编程时)是 多项式朴素贝叶斯计算似然度是单词/令牌(随机变量)的计数,朴素贝叶斯计算似然度如下: 如果我错了纠正我!

6
二进制分类的变量选择过程
当变量/特征比学习集中的观察数多时,您更喜欢二进制分类的变量/特征选择是什么?这里的目的是讨论什么是可以最大程度减少分类错误的特征选择过程。 我们可以修复符号为:一致性,让从组是学习组观察的。因此是学习集的大小。我们将设置为要素数量(即要素空间的维)。令表示个坐标。{ X 我1,... ,X 我Ñ 我 } 我Ñ 0 + ñ 1 = Ñ p X [ 我] 我X ∈ [R pi∈{0,1}i∈{0,1}i \in \{0, 1\}{ x一世1个,… ,x一世ñ一世}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}一世iiñ0+ n1个= nn0+n1=nn_0 + n_1 = npppx [ i ]x[i]x[i]一世iiX ∈ řpx∈Rpx \in \mathbb{R}^p 如果您无法提供详细信息,请提供完整的参考。 编辑(不断更新):以下答案中提出的程序 贪婪的前向选择 二元分类的变量选择过程 向后消除 二进制分类的变量选择过程 Metropolis扫描/ MCMC …

2
如何统计比较机器学习分类器的性能?
基于估计的分类准确性,我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器,我从基本集中随机选择一个训练和测试样本,训练模型并测试模型。每个分类器我都会做十次。因此,每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用?Ç 升一个小号小号我˚F我ë - [R 1C升一种ss一世F一世Ë[R1个classifier 1Ç 升一个小号小号我˚F我ë - [R 2C升一种ss一世F一世Ë[R2classifier 2

3
为什么分类准确度较低的AUC比准确度较高的分类器更高?
我有两个分类器 答:朴素的贝叶斯网络 B:树(单连接)贝叶斯网络 在准确性和其他度量方面,A的性能比B差。但是,当我使用R包ROCR和AUC进行ROC分析时,事实证明A的AUC高于B的AUC。这是为什么发生了什么? 真阳性(tp),假阳性(fp),假阴性(fn),真阴性(tn),敏感性(sen),特异性(spec),阳性预测值(ppv),阴性预测值(npv)和A和B的精度(acc)如下。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.