数据科学 scalability

12

许多人以相当商业化的方式使用“ 大数据 ”一词，以表示计算中涉及大数据集，因此潜在的解决方案必须具有良好的性能。当然，大数据总是带有诸如可扩展性和效率之类的相关术语，但是究竟是什么将问题定义为大数据问题呢？计算是否必须与某些特定目的相关，例如数据挖掘/信息检索，或者如果数据集足够大，可以将用于一般图形问题的算法标记为大数据吗？此外，如何大是够大（如果这是可能的定义）？

86 bigdata scalability efficiency performance

4

使用Scala的数据科学工具

我知道Spark已与Scala完全集成。它的用例专门用于大型数据集。其他哪些工具具有良好的Scala支持？Scala是否最适合大型数据集？还是也适合较小的数据集？

15 scalability scala

4

寻找例如基础架构堆栈/工作流程/管道

我试图了解现实世界中所有“大数据”组件如何一起发挥作用，例如hadoop，monogodb / nosql，storm，kafka等……我知道这是用于不同的类型，但我想了解更多有关它们在应用程序中的交互的信息，例如，为应用程序，网络应用程序，在线商店思考机器学习。我有访问者/会话，交易数据等并存储；但是，如果我想即时提出建议，则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息？我认为我可以自己使用大多数工具，但是将它们相互插入似乎是一种艺术。有公开的例子/用例等吗？我知道各个管道在很大程度上取决于用例和用户，但是仅示例对我来说可能非常有用。

14 machine-learning bigdata efficiency scalability distributed

3

以后可以将为MongoDB编写的map-reduce算法移植到Hadoop吗？

在我们公司中，我们有一个包含大量非结构化数据的MongoDB数据库，我们需要在该数据库上运行map-reduce算法来生成报告和其他分析。我们提供两种方法来执行所需的分析：一种方法是将数据从MongoDB提取到Hadoop集群，然后完全在Hadoop平台中进行分析。但是，这需要在准备平台（软件和硬件）以及教育团队使用Hadoop并为其编写映射减少任务方面进行大量投资。另一种方法是将我们的精力放在设计map-reduce算法上，然后在MongoDB map-reduce功能上运行这些算法。这样，我们可以创建可以生成报告的最终系统的初始原型。我知道MongoDB的map-reduce功能与Hadoop相比要慢得多，但是目前数据还不算大，这使得它成为瓶颈，至少在接下来的六个月内不会。问题是，使用第二种方法并为MongoDB编写算法，是否可以将它们稍后以很少的修改和算法重新设计移植到Hadoop？MongoDB仅支持JavaScript，但是易于处理编程语言上的差异。但是，MongoDB和Hadoop的map-reduce模型之间是否存在根本差异，可能迫使我们重新设计算法以实质性地移植到Hadoop？

11 scalability apache-hadoop map-reduce mongodb

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

各种统计技术（回归，PCA等）如何根据样本大小和维度进行缩放？

是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放？例如，有一天我的一个朋友告诉我，简单地快速排序大小为n的一维数据的计算时间为n * log（n）。因此，例如，如果我们对X进行y回归（其中X是d维变量），它是否会变成O（n ^ 2 * d）？如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解，它将如何缩放？还是只是获得解决方案与使用重要性测试？我想我比这里的一个好答案更想要一个好的答案来源（例如总结各种统计技术的标度的论文）。举例来说，清单包含多重回归，logistic回归，PCA，cox比例风险回归，K均值聚类等的缩放比例。

10 bigdata statistics efficiency scalability

1

学习信号编码

我有大量样本，它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时，它是主要的频率成分，并且背景中始终有恒定的白噪声。我已经手动解码了这些流，但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。是否有可能建立一个可以学习解码多个编码方案的模型？这样的模型有多健壮，我想采用哪种技术？独立分量分析（ICA）似乎对隔离我关心的频率有用，但是我将如何学习编码方案？

9 machine-learning data-mining scalability algorithms feature-selection

Questions tagged «scalability»