Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

3
如何使用统计显着性比较两个不同模型的准确性
我正在研究时间序列预测。我有两个数据集和。我有三个预测模型:。使用数据集样本训练所有这些模型,并使用数据集的样本测量其性能。假设性能指标是MSE(或其他任何指标)。在针对数据集进行测量时,这些模型的MSE为和。如何测试一种模型相对于另一种模型的改进具有统计学意义。D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 例如,假设,,,并且基于数据集计算这些MSE 的样本总数为2000。如何测试,和有显着差异。如果有人可以帮助我解决这个问题,我将不胜感激。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

1
测试比例和二进制分类器
我有一台生产零件的原型机。 在第一次测试中,该机器生产了零件,并且一个二进制分类器告诉我零件有缺陷(,通常且),而零件是好的。d 1 d 1 &lt; Ñ 1 d 1 / Ñ 1 &lt; 0.01 Ñ 1 ≈ 10 4 Ñ 1 - d 1ñ1个N1N_1d1个d1d_1d1个&lt; N1个d1&lt;N1d_1 < N_1d1个/N1个&lt; 0.01d1/N1&lt;0.01d_1/N_1<0.01ñ1个≈ 104N1≈104N_1\approx10^4ñ1个-d1个N1−d1N_1-d_1 然后,技术人员对机器进行一些更改,以减少缺陷零件的数量。 在第二次和随后的测试中,修改后的机器生成零件,并且相同的二进制分类器(未触及)告诉我零件有缺陷,无论如何与非常相似。d 2 d 2 / N 2 d 1 / N 1ñ2N2N_2d2d2d_2d2/ N2d2/N2d_2/N_2d1个/ N1个d1/N1d_1/N_1 技术人员想知道他的更改是否有效。 假设分类器是完美的(灵敏度为100%,特异性为100%),则可以对比例进行测试(使用R,我只输入prop.test(c(d1,d2),c(N1,N2)))。 但是分类器不是完美的,那么我如何考虑分类器的敏感性和特异性(都是未知的),以便正确地回答技术人员的问题?

1
MFCC是向检索系统表示音乐的最佳方法吗?
信号处理技术(梅尔频率倒谱)通常用于从音乐作品中提取信息,以用于机器学习任务。该方法给出了短期功率谱,并且将系数用作输入。 在设计音乐检索系统时,这些系数被认为是乐曲的特征(显然不一定是唯一的,而是有区别的)。有没有更适合通过网络学习的特征?诸如Elman网络之类的乐器所使用的随时间变化的特征(例如低音效果)会更有效吗? 哪些特征将构成可以进行何种分类的足够广泛的集合?

4
改善糖尿病的SVM分类
我正在使用SVM来预测糖尿病。我为此使用BRFSS数据集。数据集的维度为并且存在偏斜。s在目标变量中的百分比为而s构成其余的。11 %89 %432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% 我只使用了数据集中15的136独立变量。减少数据集的原因之一是当NA省略包含s的行时具有更多的训练样本。 15在运行统计方法(例如随机树,逻辑回归)并从结果模型中找出哪些变量很重要之后,才选择这些变量。例如,在运行逻辑回归之后,我们通常p-value对最重要的变量进行排序。 我进行变量选择的方法正确吗?任何建议都非常欢迎。 以下是我的R实现。 library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y &lt;- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator &lt;- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", "X_RFCHOL", "RACE2", "X_SMOKER3", "X_AGE_G", "X_BMI4CAT", "X_INCOMG", "X_RFDRHV3", "X_RFDRHV3", "X_STATE"); target …

2
具有连续变量和二进制变量的K最近邻
我有一个带有列a b c(3个属性)的数据集。a是数值型和连续型的,b并且c分别具有两个级别。我使用的是K-近邻方法进行分类a和b上c。因此,为了能够测量距离,我通过删除b和添加b.level1和来变换数据集b.level2。如果观察i在b类别中处于第一级,则b.level1[i]=1和b.level2[i]=0。 现在,我可以在新数据集中测量距离了: a b.level1 b.level2 从理论/数学角度来看:可以同时对二进制数据和连续数据执行K最近邻(KNN)吗? 我FNN在R和功能中使用包knn()

3
如何通过卷积神经网络(CNN)对不平衡数据集进行分类?
我在二元分类任务中有一个不平衡的数据集,其中正数与负数的比例为0.3%对99.7%。正面和负面之间的差距是巨大的。当我用MNIST问题中使用的结构训练CNN时,测试结果显示出较高的假阴性率。同样,训练误差曲线在开始的几个时期中迅速下降,但在随后的时期中保持相同的值。 您能建议我一种解决此问题的方法吗?谢谢!

1
随机森林能否比MNIST上的2.8%测试误差好得多?
我还没有发现在随机森林的应用MNIST,CIFAR,STL-10等任何文学,所以我想我会尝试将其与排列不变 MNIST自己。 在R中,我尝试: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) 运行了2个小时,测试错误为2.8%。 我也试过scikit学习,与 RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) 70分钟后,我得到了2.9%的测试错误,但是当n_estimators = 200时,仅7分钟后我得到了2.8%的测试错误。 使用OpenCV,我尝试了 rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) 运行了6.5分钟,rf用于预测给出了15%的测试误差。我不知道它训练了多少棵树,因为它们对Random Forests的Python绑定似乎忽略了该params参数,至少在版本2.3.1中如此。我也无法弄清楚如何讲清楚OpenCV的,我想解决一个分类问题,而不是回归-我有我的怀疑,因为替换astype('int')用astype('float32')的结果相同。 在神经网络中,对于不变排列的 MNIST基准,目前的技术水平是0.8%的测试错误,尽管在一个CPU上训练可能要花费2个小时以上。 是否有可能比使用随机森林的MNIST上的2.8%测试错误好得多?我认为普遍的共识是随机森林通常至少与内核SVM一样好,我相信它可以得到1.4%的测试错误。

1
SMOTE针对多类不平衡问题引发错误
我正在尝试使用SMOTE纠正我的多类分类问题中的不平衡。尽管根据SMOTE帮助文档,SMOTE在虹膜数据集上可以很好地工作,但是在类似的数据集上却不能工作。这是我的数据的样子。请注意,它具有三个类别,值分别为1、2、3。 &gt; data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …



2
在哪里可以找到用于转移学习的预训练模型[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 2年前关闭。 我是机器学习领域的新手,但是我想尝试使用Keras实现简单的分类算法。不幸的是,我的数据很少,因此我想尝试将转移学习应用于该问题。但是,我在网上找不到任何东西,因此我想了解哪些是寻找预训练神经网络的最佳场所。您对此有何建议?哪个网站最适合于了解如何启动机器学习项目?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


1
SVM类型之间的差异
我是新来支持向量机的人。 简短说明 R中svm的e1071软件包中的函数提供了多种选项: C分类 nu分类 一类(用于新颖性检测) eps回归 回归 这五种类型之间的直观区别是什么?在哪种情况下应使用哪一个?

2
CART树是否捕获预测变量之间的交互?
此纸的权利要求,在CART,因为在每一步骤的单个协变量执行二进制分裂,所有分割是协变量之间正交,并因此相互作用不考虑。 但是,相反,许多非常严肃的参考文献声称,树的层次结构可以保证自动对预测变量之间的交互进行建模(例如,本文,当然还有Hastie)。 谁是对的?CART生长的树是否捕获输入变量之间的相互作用?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.