Questions tagged «accuracy»

3
AUC与标准精度相比的优势
我开始研究曲线下的面积(AUC),对它的有用性有些困惑。当初次向我解释时,AUC似乎是性能的一个很好的衡量指标,但是在我的研究中,我发现有人声称它的优势在很大程度上是微不足道的,因为它最适合捕捉具有高标准精度测量值和低AUC的“幸运”模型。 因此,我应该避免依靠AUC来验证模型还是最好的组合?感谢你的帮助。

4
使用整个数据集训练最终模型总是更好吗?
在训练,验证和测试机器学习偏好模型之后,一种常见的技术是使用完整的数据集(包括测试子集)来训练最终模型,以将其部署到例如产品上。 我的问题是:这样做是否总是最好的?如果性能实际上下降了怎么办? 例如,让我们假设在分类测试子集时模型得分约为65%的情况。这可能意味着要么模型训练不足,要么测试子集包含异常值。在后一种情况下,与他们一起训练最终模型会降低其性能,并且只有在部署模型后才能发现。 重新表述我的最初问题: 如果您曾经进行过一次模型演示,例如将其部署在昂贵的火箭实验上的嵌入式电子设备上,那么您是否会信任在最后一步中已通过测试子集重新训练的模型,而无需重新进行?对其新性能进行了测试?

3
您如何在工作中管理期望?
围绕数据科学,机器学习以及所有成功案例的喧嚣声中,数据科学家及其预测模型的期望既合理又夸张。 我对实践统计学家,机器学习专家和数据科学家的问题是-您如何管理公司内商人的期望,尤其是在模型的预测准确性方面?简单地说,如果您的最佳模型只能达到90%的准确度,而高层管理人员期望的准确率不低于99%,那么您将如何处理此类情况?

2
如何提高分类器的准确性?
我正在使用OpenCV letter_recog.cpp示例来对随机树和其他分类器进行实验。此示例具有六个分类器的实现-随机树,boosting,MLP,kNN,朴素贝叶斯和SVM。使用具有20000个实例和16个功能的UCI字母识别数据集,我将其分为两半进行训练和测试。我具有SVM的经验,因此我迅速将其识别错误设置为3.3%。经过一些试验,我得到的是: UCI字母识别: RTrees-5.3% 提升-13% MLP-7.9% kNN(k = 3)-6.5% 贝叶斯-11.5% 支持向量机-3.3% 使用的参数: RTrees-max_num_of_trees_in_the_forrest = 200,max_depth = 20,min_sample_count = 1 提升-boost_type = REAL,weak_count = 200,weight_trim_rate = 0.95,max_depth = 7 MLP-method = BACKPROP,param = 0.001,max_iter = 300(默认值-太慢无法进行实验) kNN(k = 3)-k = 3 贝叶斯-无 SVM-RBF内核,C = 10,gamma = 0.01 之后,我使用相同的参数并通过首先提取梯度特征(向量大小为200个元素)对Digits和MNIST数据集进行了测试: 位数: RTrees-5.1% 提升-23.4% …

1
机器学习中的LB分数是多少?
我正在阅读有关kaggle博客的文章。作者反复提到“ LB分数”和“ LB拟合”)作为衡量机器学习有效性的指标(以及交叉验证(CV)分数)。 通过研究“ LB”的含义,我花了很多时间,我意识到通常人们没有太多背景就直接将其称为LB。 所以我的问题是-什么是“ LB”?

3
KS,AUROC和Gini之间的关系
诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.