数据科学 map-reduce

3

我对用户和他们喜欢的项目有一个稀疏的矩阵（按100万个用户和100K个项目的顺序排列，稀疏程度很低）。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试，我的假设是我将使用的方法必须是并行的或分布式的。因此，我正在考虑两类可能的解决方案：一种可以在单个多核计算机上使用（或以相当容易的方式实现），另一种可以在Spark集群上使用，即作为MapReduce程序。我考虑了以下三个主要思想：假设一个余弦相似性度量，通过其转置（作为外部乘积之和来实现）对归一化矩阵进行完全乘法使用位置敏感的哈希（LSH）首先使用PCA降低问题的维度对于任何其他可以解决此问题的方式的想法或建议，我将不胜感激。

17 machine-learning distributed map-reduce dimensionality-reduction

3

Amazon RedShift是否可以将Hadoop替换为约1XTB数据？

围绕Hadoop及其生态系统进行了大量宣传。但是，实际上，在许多数据集在TB范围内的情况下，使用Amazon RedShift来查询大型数据集而不是花时间和精力来构建Hadoop集群是否更合理？此外，在设置复杂性，成本和性能方面，Amazon Redshift与Hadoop有何比较？

12 apache-hadoop map-reduce aws

3

以后可以将为MongoDB编写的map-reduce算法移植到Hadoop吗？

在我们公司中，我们有一个包含大量非结构化数据的MongoDB数据库，我们需要在该数据库上运行map-reduce算法来生成报告和其他分析。我们提供两种方法来执行所需的分析：一种方法是将数据从MongoDB提取到Hadoop集群，然后完全在Hadoop平台中进行分析。但是，这需要在准备平台（软件和硬件）以及教育团队使用Hadoop并为其编写映射减少任务方面进行大量投资。另一种方法是将我们的精力放在设计map-reduce算法上，然后在MongoDB map-reduce功能上运行这些算法。这样，我们可以创建可以生成报告的最终系统的初始原型。我知道MongoDB的map-reduce功能与Hadoop相比要慢得多，但是目前数据还不算大，这使得它成为瓶颈，至少在接下来的六个月内不会。问题是，使用第二种方法并为MongoDB编写算法，是否可以将它们稍后以很少的修改和算法重新设计移植到Hadoop？MongoDB仅支持JavaScript，但是易于处理编程语言上的差异。但是，MongoDB和Hadoop的map-reduce模型之间是否存在根本差异，可能迫使我们重新设计算法以实质性地移植到Hadoop？

11 scalability apache-hadoop map-reduce mongodb

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

Questions tagged «map-reduce»