数据科学 distributed

5

借助Hadoop 2.0和YARN，据说Hadoop不再仅局限于map-reduce解决方案。有了这一进步，考虑到两者都位于HDFS之上，Apache Spark与Hadoop有哪些用例？我已经阅读了Spark的介绍文档，但很好奇是否有人遇到了比Hadoop更高效，更容易解决的问题。

30 apache-hadoop distributed knowledge-base

3

最近的邻居搜索非常高维的数据

我对用户和他们喜欢的项目有一个稀疏的矩阵（按100万个用户和100K个项目的顺序排列，稀疏程度很低）。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试，我的假设是我将使用的方法必须是并行的或分布式的。因此，我正在考虑两类可能的解决方案：一种可以在单个多核计算机上使用（或以相当容易的方式实现），另一种可以在Spark集群上使用，即作为MapReduce程序。我考虑了以下三个主要思想：假设一个余弦相似性度量，通过其转置（作为外部乘积之和来实现）对归一化矩阵进行完全乘法使用位置敏感的哈希（LSH）首先使用PCA降低问题的维度对于任何其他可以解决此问题的方式的想法或建议，我将不胜感激。

17 machine-learning distributed map-reduce dimensionality-reduction

3

并行和分布式计算

并行计算和分布式计算之间的区别是什么？当涉及到可伸缩性和效率时，通常会看到在机器集群中处理计算的解决方案，有时将其称为并行处理或分布式处理。从某种意义上讲，计算似乎总是并行的，因为有些事情是同时运行的。但是，分布式计算是否仅与使用一台以上的机器有关，还是存在区分这两种处理的其他特征？举例来说，计算是并行和分布式的，这是否多余？

15 definitions parallel distributed

4

寻找例如基础架构堆栈/工作流程/管道

我试图了解现实世界中所有“大数据”组件如何一起发挥作用，例如hadoop，monogodb / nosql，storm，kafka等……我知道这是用于不同的类型，但我想了解更多有关它们在应用程序中的交互的信息，例如，为应用程序，网络应用程序，在线商店思考机器学习。我有访问者/会话，交易数据等并存储；但是，如果我想即时提出建议，则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息？我认为我可以自己使用大多数工具，但是将它们相互插入似乎是一种艺术。有公开的例子/用例等吗？我知道各个管道在很大程度上取决于用例和用户，但是仅示例对我来说可能非常有用。

14 machine-learning bigdata efficiency scalability distributed

2

Storm和Hadoop之间的权衡（MapReduce）

有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗？当然，除了显而易见的一个之外，Hadoop（在Hadoop集群中通过MapReduce进行处理）是一个批处理系统，而Storm是一个实时处理系统。我曾经在Hadoop Eco System上工作过一些，但没有与Storm一起工作过。浏览了许多演示文稿和文章后，我仍然找不到满意且全面的答案。注意：此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。

12 bigdata efficiency apache-hadoop distributed

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

梯度提升库的分布式意味着什么？

我正在查看XGBoost文档，并指出XGBoost是一个优化的分布式梯度提升库。什么是分布式？祝你今天愉快

9 xgboost distributed boosting

Questions tagged «distributed»