Questions tagged «map-reduce»

3
最近的邻居搜索非常高维的数据
我对用户和他们喜欢的项目有一个稀疏的矩阵(按100万个用户和100K个项目的顺序排列,稀疏程度很低)。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试,我的假设是我将使用的方法必须是并行的或分布式的。因此,我正在考虑两类可能的解决方案:一种可以在单个多核计算机上使用(或以相当容易的方式实现),另一种可以在Spark集群上使用,即作为MapReduce程序。我考虑了以下三个主要思想: 假设一个余弦相似性度量,通过其转置(作为外部乘积之和来实现)对归一化矩阵进行完全乘法 使用位置敏感的哈希(LSH) 首先使用PCA降低问题的维度 对于任何其他可以解决此问题的方式的想法或建议,我将不胜感激。


3
以后可以将为MongoDB编写的map-reduce算法移植到Hadoop吗?
在我们公司中,我们有一个包含大量非结构化数据的MongoDB数据库,我们需要在该数据库上运行map-reduce算法来生成报告和其他分析。我们提供两种方法来执行所需的分析: 一种方法是将数据从MongoDB提取到Hadoop集群,然后完全在Hadoop平台中进行分析。但是,这需要在准备平台(软件和硬件)以及教育团队使用Hadoop并为其编写映射减少任务方面进行大量投资。 另一种方法是将我们的精力放在设计map-reduce算法上,然后在MongoDB map-reduce功能上运行这些算法。这样,我们可以创建可以生成报告的最终系统的初始原型。我知道MongoDB的map-reduce功能与Hadoop相比要慢得多,但是目前数据还不算大,这使得它成为瓶颈,至少在接下来的六个月内不会。 问题是,使用第二种方法并为MongoDB编写算法,是否可以将它们稍后以很少的修改和算法重新设计移植到Hadoop?MongoDB仅支持JavaScript,但是易于处理编程语言上的差异。但是,MongoDB和Hadoop的map-reduce模型之间是否存在根本差异,可能迫使我们重新设计算法以实质性地移植到Hadoop?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.