数据科学 efficiency

12

许多人以相当商业化的方式使用“ 大数据 ”一词，以表示计算中涉及大数据集，因此潜在的解决方案必须具有良好的性能。当然，大数据总是带有诸如可扩展性和效率之类的相关术语，但是究竟是什么将问题定义为大数据问题呢？计算是否必须与某些特定目的相关，例如数据挖掘/信息检索，或者如果数据集足够大，可以将用于一般图形问题的算法标记为大数据吗？此外，如何大是够大（如果这是可能的定义）？

86 bigdata scalability efficiency performance

5

什么时候模型不足？

逻辑经常指出，通过对模型进行拟合，可以增强其概括能力。就是说，显然，在某个时候，模型的拟合不足会导致模型变得更糟，无论数据的复杂性如何。您怎么知道您的模型何时达到了适当的平衡，并且不符合其要建模的数据？注意：这是我的问题“ 为什么过度拟合不好？ ” 的后续措施。

56 efficiency algorithms parameter

5

扩大seaborn热图

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

寻找例如基础架构堆栈/工作流程/管道

我试图了解现实世界中所有“大数据”组件如何一起发挥作用，例如hadoop，monogodb / nosql，storm，kafka等……我知道这是用于不同的类型，但我想了解更多有关它们在应用程序中的交互的信息，例如，为应用程序，网络应用程序，在线商店思考机器学习。我有访问者/会话，交易数据等并存储；但是，如果我想即时提出建议，则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息？我认为我可以自己使用大多数工具，但是将它们相互插入似乎是一种艺术。有公开的例子/用例等吗？我知道各个管道在很大程度上取决于用例和用户，但是仅示例对我来说可能非常有用。

14 machine-learning bigdata efficiency scalability distributed

1

XGBRegressor与xgboost.train的巨大速度差异？

如果我使用以下代码训练模型： import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 它会在大约1分钟内完成。如果我使用Sci-Kit学习方法训练模型： import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

13 machine-learning python decision-trees xgboost efficiency

2

Storm和Hadoop之间的权衡（MapReduce）

有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗？当然，除了显而易见的一个之外，Hadoop（在Hadoop集群中通过MapReduce进行处理）是一个批处理系统，而Storm是一个实时处理系统。我曾经在Hadoop Eco System上工作过一些，但没有与Storm一起工作过。浏览了许多演示文稿和文章后，我仍然找不到满意且全面的答案。注意：此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。

12 bigdata efficiency apache-hadoop distributed

2

在频繁模式挖掘中，FPGrowth是否仍被视为“最新技术”？

据我所知，用于解决频繁模式挖掘（FPM）问题的算法的开发，改进之路有一些主要检查点。首先，Apriori算法是由Agrawal等人于1993年提出的。，以及问题的形式化。该算法能够通过使用网格来维护数据，从而从集合（功率集）中剥离一些集合2^n - 1。该方法的缺点是需要重新读取数据库以计算每个扩展集的频率。后来，在1997年，Zaki等人。提出了Eclat算法，该算法将每个集合的结果频率插入晶格中。这是通过在网格的每个节点处添加具有从根到所引用节点的项的事务ID集合来完成的。主要贡献在于，不必重新读取整个数据集即可知道每个集合的频率，但是保持这种数据结构建立所需的内存可能会超过数据集本身的大小。 2000年，Han等。提出了一种名为FPGrowth的算法，以及一个名为FPTree的前缀树数据结构。该算法能够提供显着的数据压缩，同时还可以仅产生频繁的项目集（不生成候选项目集）。这主要是通过按降序对每个事务的项目进行排序来完成的，以便最频繁的项目是树数据结构中重复次数最少的项目。由于频率仅在深度遍历树时下降，因此该算法能够剥离非频繁项集。编辑：据我所知，这可能被认为是最先进的算法，但是我想了解其他建议的解决方案。FPM还有哪些其他算法被认为是“最新技术”？这种算法的直觉 / 主要贡献是什么？在频繁模式挖掘中，FPGrowth算法是否仍被视为“最新技术”？如果不是，哪种算法可以更有效地从大型数据集中提取频繁项集？

12 bigdata data-mining efficiency state-of-the-art

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

各种统计技术（回归，PCA等）如何根据样本大小和维度进行缩放？

是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放？例如，有一天我的一个朋友告诉我，简单地快速排序大小为n的一维数据的计算时间为n * log（n）。因此，例如，如果我们对X进行y回归（其中X是d维变量），它是否会变成O（n ^ 2 * d）？如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解，它将如何缩放？还是只是获得解决方案与使用重要性测试？我想我比这里的一个好答案更想要一个好的答案来源（例如总结各种统计技术的标度的论文）。举例来说，清单包含多重回归，logistic回归，PCA，cox比例风险回归，K均值聚类等的缩放比例。

10 bigdata statistics efficiency scalability

1

什么是最有效的数据索引技术

众所周知，有一些数据索引技术，被著名的索引应用程序使用，例如Lucene（对于Java）或Lucene.NET（对于.NET），MurMurHash，B + Tree等。对于No-Sql / Object面向数据库（我尝试使用C＃编写/试用），您建议使用哪种技术？我读到有关MurMurhash-2的信息，特别是v3的评论说Murmur非常快。Lucene.Net对此也有很好的评论。但是，它们的内存占用量一般如何？是否有任何有效的解决方案比Lucene或Murmur占用更少的空间（当然，如果更快的话更可取）？还是应该编写特殊的索引结构以获得最佳结果？如果我尝试编写自己的索引，那么是否存在可接受的良好索引编制规模，例如数据节点的1％或数据节点的5％？任何有用的提示将不胜感激。

10 nosql efficiency indexing data-indexing-techniques .net

4

为什么在使用库时很难授予效率？

任何小型数据库处理都可以通过Python / Perl / ...脚本轻松解决，该脚本使用该语言本身的库和/或实用程序。但是，在性能方面，人们倾向于使用C / C ++ /低级语言。根据需求量身定制代码的可能性似乎就是这些语言吸引BigData的原因-涉及内存管理，并行性，磁盘访问甚至低级优化（通过C / C ++级别的汇编构造）。当然，这样的好处是没有代价的：编写代码，有时甚至是重新发明轮子，可能是非常昂贵/累赘的。尽管有很多可用的库，但是人们倾向于在需要授予性能时自行编写代码。是什么使性能断言在处理大型数据库时无法使用库？例如，考虑一个企业，该企业会不断爬网网页并解析收集到的数据。对于每个滑动窗口，对提取的数据运行不同的数据挖掘算法。为什么开发人员会放弃使用可用的库/框架（用于爬网，文本处理和数据挖掘）？使用已经实现的东西不仅可以减轻对整个过程进行编码的负担，还可以节省大量时间。一次拍摄：是什么使自己编写代码成为性能的保证？为什么在必须确保高性能的情况下依赖框架/库会有风险吗？

10 bigdata efficiency performance

Questions tagged «efficiency»