Questions tagged «distributed»

5
Apache Spark和Hadoop的用例是什么
借助Hadoop 2.0和YARN,据说Hadoop不再仅局限于map-reduce解决方案。有了这一进步,考虑到两者都位于HDFS之上,Apache Spark与Hadoop有哪些用例?我已经阅读了Spark的介绍文档,但很好奇是否有人遇到了比Hadoop更高效,更容易解决的问题。

3
最近的邻居搜索非常高维的数据
我对用户和他们喜欢的项目有一个稀疏的矩阵(按100万个用户和100K个项目的顺序排列,稀疏程度很低)。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试,我的假设是我将使用的方法必须是并行的或分布式的。因此,我正在考虑两类可能的解决方案:一种可以在单个多核计算机上使用(或以相当容易的方式实现),另一种可以在Spark集群上使用,即作为MapReduce程序。我考虑了以下三个主要思想: 假设一个余弦相似性度量,通过其转置(作为外部乘积之和来实现)对归一化矩阵进行完全乘法 使用位置敏感的哈希(LSH) 首先使用PCA降低问题的维度 对于任何其他可以解决此问题的方式的想法或建议,我将不胜感激。

3
并行和分布式计算
并行计算和分布式计算之间的区别是什么?当涉及到可伸缩性和效率时,通常会看到在机器集群中处理计算的解决方案,有时将其称为并行处理或分布式处理。 从某种意义上讲,计算似乎总是并行的,因为有些事情是同时运行的。但是,分布式计算是否仅与使用一台以上的机器有关,还是存在区分这两种处理的其他特征?举例来说,计算是并行和分布式的,这是否多余?

4
寻找例如基础架构堆栈/工作流程/管道
我试图了解现实世界中所有“大数据”组件如何一起发挥作用,例如hadoop,monogodb / nosql,storm,kafka等……我知道这是用于不同的类型,但我想了解更多有关它们在应用程序中的交互的信息,例如,为应用程序,网络应用程序,在线商店思考机器学习。 我有访问者/会话,交易数据等并存储;但是,如果我想即时提出建议,则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息?我认为我可以自己使用大多数工具,但是将它们相互插入似乎是一种艺术。 有公开的例子/用例等吗?我知道各个管道在很大程度上取决于用例和用户,但是仅示例对我来说可能非常有用。

2
Storm和Hadoop之间的权衡(MapReduce)
有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗?当然,除了显而易见的一个之外,Hadoop(在Hadoop集群中通过MapReduce进行处理)是一个批处理系统,而Storm是一个实时处理系统。 我曾经在Hadoop Eco System上工作过一些,但没有与Storm一起工作过。浏览了许多演示文稿和文章后,我仍然找不到满意且全面的答案。 注意:此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.