5 Apache Spark和Hadoop的用例是什么 借助Hadoop 2.0和YARN,据说Hadoop不再仅局限于map-reduce解决方案。有了这一进步,考虑到两者都位于HDFS之上,Apache Spark与Hadoop有哪些用例?我已经阅读了Spark的介绍文档,但很好奇是否有人遇到了比Hadoop更高效,更容易解决的问题。 30 apache-hadoop distributed knowledge-base
3 最近的邻居搜索非常高维的数据 我对用户和他们喜欢的项目有一个稀疏的矩阵(按100万个用户和100K个项目的顺序排列,稀疏程度很低)。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试,我的假设是我将使用的方法必须是并行的或分布式的。因此,我正在考虑两类可能的解决方案:一种可以在单个多核计算机上使用(或以相当容易的方式实现),另一种可以在Spark集群上使用,即作为MapReduce程序。我考虑了以下三个主要思想: 假设一个余弦相似性度量,通过其转置(作为外部乘积之和来实现)对归一化矩阵进行完全乘法 使用位置敏感的哈希(LSH) 首先使用PCA降低问题的维度 对于任何其他可以解决此问题的方式的想法或建议,我将不胜感激。 17 machine-learning distributed map-reduce dimensionality-reduction
3 并行和分布式计算 并行计算和分布式计算之间的区别是什么?当涉及到可伸缩性和效率时,通常会看到在机器集群中处理计算的解决方案,有时将其称为并行处理或分布式处理。 从某种意义上讲,计算似乎总是并行的,因为有些事情是同时运行的。但是,分布式计算是否仅与使用一台以上的机器有关,还是存在区分这两种处理的其他特征?举例来说,计算是并行和分布式的,这是否多余? 15 definitions parallel distributed
4 寻找例如基础架构堆栈/工作流程/管道 我试图了解现实世界中所有“大数据”组件如何一起发挥作用,例如hadoop,monogodb / nosql,storm,kafka等……我知道这是用于不同的类型,但我想了解更多有关它们在应用程序中的交互的信息,例如,为应用程序,网络应用程序,在线商店思考机器学习。 我有访问者/会话,交易数据等并存储;但是,如果我想即时提出建议,则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息?我认为我可以自己使用大多数工具,但是将它们相互插入似乎是一种艺术。 有公开的例子/用例等吗?我知道各个管道在很大程度上取决于用例和用户,但是仅示例对我来说可能非常有用。 14 machine-learning bigdata efficiency scalability distributed
2 Storm和Hadoop之间的权衡(MapReduce) 有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗?当然,除了显而易见的一个之外,Hadoop(在Hadoop集群中通过MapReduce进行处理)是一个批处理系统,而Storm是一个实时处理系统。 我曾经在Hadoop Eco System上工作过一些,但没有与Storm一起工作过。浏览了许多演示文稿和文章后,我仍然找不到满意且全面的答案。 注意:此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。 12 bigdata efficiency apache-hadoop distributed
3 最佳科学计算语言[关闭] 已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗? 10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system
1 梯度提升库的分布式意味着什么? 我正在查看XGBoost文档,并指出XGBoost是一个优化的分布式梯度提升库。 什么是分布式? 祝你今天愉快 9 xgboost distributed boosting