数据科学 performance

12

许多人以相当商业化的方式使用“ 大数据 ”一词，以表示计算中涉及大数据集，因此潜在的解决方案必须具有良好的性能。当然，大数据总是带有诸如可扩展性和效率之类的相关术语，但是究竟是什么将问题定义为大数据问题呢？计算是否必须与某些特定目的相关，例如数据挖掘/信息检索，或者如果数据集足够大，可以将用于一般图形问题的算法标记为大数据吗？此外，如何大是够大（如果这是可能的定义）？

86 bigdata scalability efficiency performance

4

是否有直接运行pandas.DataFrame.isin的直接方法？

我有一个建模和评分程序，该程序大量使用了DataFrame.isin熊猫的功能，在数千个特定页面的每个页面中搜索单个用户的Facebook“喜欢”记录列表。这是程序中最耗时的部分，而不是建模或评分部分，这仅仅是因为它仅在一个内核上运行，而其余部分同时在几十个内核上运行。尽管我知道我可以手动将数据帧分解为多个块并并行运行该操作，但是有没有直接的自动方法？换句话说，是否有任何一种程序包可以识别我正在执行的一项容易委派的操作并自动分发它？也许这要求太多，但是过去我对Python中已有的功能感到惊讶，因此我认为值得提出。任何其他有关如何完成此操作的建议（即使不是通过某些神奇的独角兽程序包也是如此！）也将不胜感激。主要是，只是试图找到一种方法，以在每次运行中节省15至20分钟的时间，而无需花费等量的时间来编码解决方案。

25 performance python pandas parallel

3

您如何在工作中管理期望？

围绕数据科学，机器学习以及所有成功案例的喧嚣声中，数据科学家及其预测模型的期望既合理又夸张。我对实践统计学家，机器学习专家和数据科学家的问题是-您如何管理公司内商人的期望，尤其是在模型的预测准确性方面？简单地说，如果您的最佳模型只能达到90％的准确度，而高层管理人员期望的准确率不低于99％，那么您将如何处理此类情况？

22 performance accuracy

1

关系数据库比没有关系数据库具有更好的性能时

当像MySQL这样的关系数据库比没有关系的数据库（如MongoDB）具有更好的性能时？前几天，我在Quora上看到一个问题，关于Quora为什么仍将MySQL作为其后端，并且它们的性能仍然很好。

13 bigdata performance databases nosql

3

在不同样本量下测量不同分类器的性能

我目前正在对从文本中提取的各种实体使用几种不同的分类器，并将精度/召回率用作总结每个单独的分类器在给定数据集中的表现的摘要。我想知道是否存在一种有意义的方式来以类似方式比较这些分类器的性能，但是该方法还考虑了要分类的测试数据中每个实体的总数？目前，我正在使用精度/召回率作为性能指标，因此可能会有类似以下内容： Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% 但是，我正在运行这些数据集的数据集中可能包含10万员工，5000家公司，500种奶酪和1个鸡蛋。那么，我是否可以在上表中添加一个汇总统计信息，其中还考虑了每个项目的总数？还是有某种方法可以衡量一个事实，例如，仅使用一个数据项，Egg分类器上的100％prec / rec可能就没有意义？假设我们有数百个这样的分类器，我想我正在寻找一种很好的方法来回答诸如“哪些分类器表现不佳？哪些分类器缺乏足够的测试数据来判断它们是否表现不佳？”之类的问题。

12 classification performance

4

绩效评估：为什么称为召回？

精度是相关实例的比例，而召回（也称为敏感度）是相关实例的比例。我知道他们的意思，但我不知道为什么叫回忆？我不是英语母语人士。我知道回忆意味着记住，那么我不知道这个含义与这个概念的相关性！也许覆盖范围更好，因为它显示了覆盖了多少实例...或任何其他术语。而且敏感性也对我不明智！您能否帮助我将这些词与概念联系起来并有所了解？

11 performance terminology

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

如何比较特征选择方法的性能？

有几种特征选择 /变量选择方法（例如，参见Guyon＆Elisseeff，2003；Liu等，2010）：过滤器方法（例如，基于相关性，基于熵，基于随机森林重要性），包装器方法（例如，前向搜索，爬山搜索）和特征选择是模型学习的一部分的嵌入式方法。机器学习工具（例如R，Python等）也实现了许多已发布的算法。比较不同的特征选择算法并为给定问题/数据集选择最佳方法的合适方法是什么？另一个问题是，是否存在已知的衡量特征选择算法性能的指标？

10 feature-selection performance model-selection

4

为什么在使用库时很难授予效率？

任何小型数据库处理都可以通过Python / Perl / ...脚本轻松解决，该脚本使用该语言本身的库和/或实用程序。但是，在性能方面，人们倾向于使用C / C ++ /低级语言。根据需求量身定制代码的可能性似乎就是这些语言吸引BigData的原因-涉及内存管理，并行性，磁盘访问甚至低级优化（通过C / C ++级别的汇编构造）。当然，这样的好处是没有代价的：编写代码，有时甚至是重新发明轮子，可能是非常昂贵/累赘的。尽管有很多可用的库，但是人们倾向于在需要授予性能时自行编写代码。是什么使性能断言在处理大型数据库时无法使用库？例如，考虑一个企业，该企业会不断爬网网页并解析收集到的数据。对于每个滑动窗口，对提取的数据运行不同的数据挖掘算法。为什么开发人员会放弃使用可用的库/框架（用于爬网，文本处理和数据挖掘）？使用已经实现的东西不仅可以减轻对整个过程进行编码的负担，还可以节省大量时间。一次拍摄：是什么使自己编写代码成为性能的保证？为什么在必须确保高性能的情况下依赖框架/库会有风险吗？

10 bigdata efficiency performance

1

使用SMOTE技术平衡数据集的最佳性能指标是什么

我使用smote技术对数据集进行过采样，现在有了平衡的数据集。我面临的问题是性能指标；精度，召回率，f1度量，不平衡数据集中的准确性要优于平衡数据集。我可以使用哪种度量来表明平衡数据集可以改善模型的性能？注意：平衡数据集中的roc_auc_score比数据集不平衡的roc_auc_score更好吗？是否可以认为它是一个很好的性能衡量指标？经过解释，我实现了代码，并得到了这个结果 import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.svm import LinearSVC from sklearn.svm import SVC from sklearn.cross_validation import train_test_split,StratifiedShuffleSplit,cross_val_score import seaborn as sns from scipy import interp from time import * from sklearn import metrics X=dataCAD.iloc[:,0:71] …

8 performance

Questions tagged «performance»