Questions tagged «scalability»

12
大数据有多大?
许多人以相当商业化的方式使用“ 大数据 ”一词,以表示计算中涉及大数据集,因此潜在的解决方案必须具有良好的性能。当然,大数据总是带有诸如可扩展性和效率之类的相关术语,但是究竟是什么将问题定义为大数据问题呢? 计算是否必须与某些特定目的相关,例如数据挖掘/信息检索,或者如果数据集足够大,可以将用于一般图形问题的算法标记为大数据吗?此外,如何大是够大(如果这是可能的定义)?

4
使用Scala的数据科学工具
我知道Spark已与Scala完全集成。它的用例专门用于大型数据集。其他哪些工具具有良好的Scala支持?Scala是否最适合大型数据集?还是也适合较小的数据集?

4
寻找例如基础架构堆栈/工作流程/管道
我试图了解现实世界中所有“大数据”组件如何一起发挥作用,例如hadoop,monogodb / nosql,storm,kafka等……我知道这是用于不同的类型,但我想了解更多有关它们在应用程序中的交互的信息,例如,为应用程序,网络应用程序,在线商店思考机器学习。 我有访问者/会话,交易数据等并存储;但是,如果我想即时提出建议,则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息?我认为我可以自己使用大多数工具,但是将它们相互插入似乎是一种艺术。 有公开的例子/用例等吗?我知道各个管道在很大程度上取决于用例和用户,但是仅示例对我来说可能非常有用。

3
以后可以将为MongoDB编写的map-reduce算法移植到Hadoop吗?
在我们公司中,我们有一个包含大量非结构化数据的MongoDB数据库,我们需要在该数据库上运行map-reduce算法来生成报告和其他分析。我们提供两种方法来执行所需的分析: 一种方法是将数据从MongoDB提取到Hadoop集群,然后完全在Hadoop平台中进行分析。但是,这需要在准备平台(软件和硬件)以及教育团队使用Hadoop并为其编写映射减少任务方面进行大量投资。 另一种方法是将我们的精力放在设计map-reduce算法上,然后在MongoDB map-reduce功能上运行这些算法。这样,我们可以创建可以生成报告的最终系统的初始原型。我知道MongoDB的map-reduce功能与Hadoop相比要慢得多,但是目前数据还不算大,这使得它成为瓶颈,至少在接下来的六个月内不会。 问题是,使用第二种方法并为MongoDB编写算法,是否可以将它们稍后以很少的修改和算法重新设计移植到Hadoop?MongoDB仅支持JavaScript,但是易于处理编程语言上的差异。但是,MongoDB和Hadoop的map-reduce模型之间是否存在根本差异,可能迫使我们重新设计算法以实质性地移植到Hadoop?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
各种统计技术(回归,PCA等)如何根据样本大小和维度进行缩放?
是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放?例如,有一天我的一个朋友告诉我,简单地快速排序大小为n的一维数据的计算时间为n * log(n)。 因此,例如,如果我们对X进行y回归(其中X是d维变量),它是否会变成O(n ^ 2 * d)?如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解,它将如何缩放?还是只是获得解决方案与使用重要性测试? 我想我比这里的一个好答案更想要一个好的答案来源(例如总结各种统计技术的标度的论文)。举例来说,清单包含多重回归,logistic回归,PCA,cox比例风险回归,K均值聚类等的缩放比例。

1
学习信号编码
我有大量样本,它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时,它是主要的频率成分,并且背景中始终有恒定的白噪声。 我已经手动解码了这些流,但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。 是否有可能建立一个可以学习解码多个编码方案的模型?这样的模型有多健壮,我想采用哪种技术?独立分量分析(ICA)似乎对隔离我关心的频率有用,但是我将如何学习编码方案?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.