Questions tagged «svm»

支持向量机(SVM)是一种流行的监督式机器学习算法,可用于分类或回归。


11
使用scikit Learn的SVM无限运行,永远无法完成执行
我正在尝试在具有595605行和5列(功能)的训练数据集和具有397070行的测试数据集上使用scikit Learn(python)运行SVR。数据已经过预处理和规范化。 我能够成功运行测试示例,但是使用我的数据集执行并使其运行了一个多小时后,我仍然看不到任何输出或程序终止。我尝试使用不同的IDE甚至从终端执行,但这似乎不是问题。我也尝试将'C'参数值从1更改为1e3。 使用scikit的所有svm实现都面临类似的问题。 我还没有等到它完成?此执行需要多少时间? 根据我的经验,它不需要几分钟。 这是我的系统配置:Ubuntu 14.04、8GB RAM,大量可用内存,第四代i7处理器

2
支持向量机是否仍被视为利基市场中的“最新技术”?
这个问题是我在另一个问题上看到的评论的回应。 评论是关于Coursera上的机器学习课程提纲的,并且遵循“如今SVM的使用率不高”的思路。 我本人只是刚刚完成了相关的讲座,而我对SVM的理解是它们是一种强大且高效的分类学习算法,并且在使用内核时,它们具有“利基”特性,涵盖了大约10到1000个特征,以及训练样本的数量可能在100到10,000之间。训练样本的限制是因为核心算法围绕优化从方形矩阵生成的结果进行了优化,该矩阵的尺寸基于训练样本的数量,而不是原始特征的数量。 因此,我看到的评论是否对课程进行了一些实际的改变,如果是这样,那是什么改变:一种同样涵盖SVM的“最佳点”的新算法,更好的CPU意味着SVM的计算优势不那么值得?抑或是评论者的意见或个人经验? 我尝试搜索例如“支持向量机过时了”,但没有发现任何暗示它们被抛弃的理由。 Wikipedia拥有:http : //en.wikipedia.org/wiki/Support_vector_machine#Issues。。。主要的症结似乎是难以解释模型。这使SVM可以很好地用于黑匣子预测引擎,但对于生成见解却不是那么好。我认为这不是主要问题,在选择合适的工作工具时(考虑到培训数据和学习任务的性质等),这只是一件小事。


2
如何为PASCAL VOC挑战计算检测任务的mAP?
如何为Pascal VOC排行榜的检测任务计算mAP(平均平均精度)?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 那里说-在第11页:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。对于VOC2007挑战,使用插值平均精度(Salton和Mcgill 1986)来评估分类和检测。对于给定的任务和类别,从方法的排序输出中计算出精度/召回曲线。召回率定义为排名高于给定等级的所有阳性示例的比例。精确度是高于该等级的所有示例中来自肯定类别的比例。AP汇总了精度/召回曲线的形状,并定义为一组11个等距召回级别[0,0.1,...,1]的平均精度: AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 通过采用针对相应召回率超过r:的方法测得的最大精度来内插每个召回级别r的精度pinterp(r) = max p(r˜),其中p(r〜)是在召回〜r时测得的精度 有关地图:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision 这是否意味着: 我们计算精度和召回率: A)对于许多不同的值,IoU > {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}我们计算真/假正/负值 其中True positive = Number_of_detection with IoU > {0, 0.1,..., 1},这里说:/datascience//a/16813/37736然后我们计算: Precision = True positive / (True positive …

2
您可以在scikit-learn中解释SVC和LinearSVC之间的区别吗?
我最近开始学习与之合作,sklearn并且刚刚遇到了这种奇怪的结果。 我使用digits可用的数据集sklearn尝试不同的模型和估计方法。 当我在数据上测试支持向量机模型时,我发现sklearnSVM分类中有两种不同的类:SVC和LinearSVC,其中前者使用一种反对一种方法,而另一种则使用一种反对其他方法。 我不知道会对结果产生什么影响,因此我尝试了两者。我进行了蒙特卡洛(Monte Carlo)风格的估计,我对这两个模型都运行了500次,每次将样本随机分为60%训练和40%测试,并在测试集上计算预测误差。 常规SVC估计器产生以下误差直方图: 线性SVC估计器产生以下直方图: 造成这种明显差异的原因是什么?为什么线性模型大多数时候都具有如此高的精度? 并且,与此相关的是,什么可能导致结果出现明显的极化?精度接近1或精度接近0,两者之间什么也没有。 为了进行比较,决策树分类产生的正态分布错误率更高,准确度约为0.85。
19 svm  scikit-learn 

2
如何提高分类器的准确性?
我正在使用OpenCV letter_recog.cpp示例来对随机树和其他分类器进行实验。此示例具有六个分类器的实现-随机树,boosting,MLP,kNN,朴素贝叶斯和SVM。使用具有20000个实例和16个功能的UCI字母识别数据集,我将其分为两半进行训练和测试。我具有SVM的经验,因此我迅速将其识别错误设置为3.3%。经过一些试验,我得到的是: UCI字母识别: RTrees-5.3% 提升-13% MLP-7.9% kNN(k = 3)-6.5% 贝叶斯-11.5% 支持向量机-3.3% 使用的参数: RTrees-max_num_of_trees_in_the_forrest = 200,max_depth = 20,min_sample_count = 1 提升-boost_type = REAL,weak_count = 200,weight_trim_rate = 0.95,max_depth = 7 MLP-method = BACKPROP,param = 0.001,max_iter = 300(默认值-太慢无法进行实验) kNN(k = 3)-k = 3 贝叶斯-无 SVM-RBF内核,C = 10,gamma = 0.01 之后,我使用相同的参数并通过首先提取梯度特征(向量大小为200个元素)对Digits和MNIST数据集进行了测试: 位数: RTrees-5.1% 提升-23.4% …

5
选择二进制分类算法
我有一个二进制分类问题: 训练集中约有1000个样本 10个属性,包括二进制,数字和分类 哪种算法是解决此类问题的最佳选择? 默认情况下,我将从SVM(将标称属性值转换为二进制特征的初步方法)开始,因为它被认为是相对干净和无噪声数据的最佳选择。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 



1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
特征缩放的后果
我目前正在使用SVM,并将训练功能扩展到[0,1]的范围。我首先调整/变换训练集,然后将相同的变换应用于测试集。例如: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) 假设训练集中的给定特征的范围为[0,100],而测试集中的相同特征的范围为[-10,120]。在训练集中,该特征将被适当地缩放为[0,1],而在测试集中,该特征将被缩放到最初指定的范围之外的范围,例如[-0.1,1.2]。 我想知道测试集功能超出用于训练模型的功能范围会带来什么后果?这有问题吗?


1
SVM中的正则化参数的直觉
在SVM中改变正则化参数如何改变不可分离数据集的决策边界?视觉上的答案和/或对限制行为的一些评论(对于大大小小的正则化)将非常有帮助。
11 svm 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.