数据科学 mongodb

3

像MongoDB这样的NoSQL数据库如何用于数据分析？它们有哪些功能可以使数据分析更快，更强大？

16 bigdata nosql mongodb

3

在我们公司中，我们有一个包含大量非结构化数据的MongoDB数据库，我们需要在该数据库上运行map-reduce算法来生成报告和其他分析。我们提供两种方法来执行所需的分析：一种方法是将数据从MongoDB提取到Hadoop集群，然后完全在Hadoop平台中进行分析。但是，这需要在准备平台（软件和硬件）以及教育团队使用Hadoop并为其编写映射减少任务方面进行大量投资。另一种方法是将我们的精力放在设计map-reduce算法上，然后在MongoDB map-reduce功能上运行这些算法。这样，我们可以创建可以生成报告的最终系统的初始原型。我知道MongoDB的map-reduce功能与Hadoop相比要慢得多，但是目前数据还不算大，这使得它成为瓶颈，至少在接下来的六个月内不会。问题是，使用第二种方法并为MongoDB编写算法，是否可以将它们稍后以很少的修改和算法重新设计移植到Hadoop？MongoDB仅支持JavaScript，但是易于处理编程语言上的差异。但是，MongoDB和Hadoop的map-reduce模型之间是否存在根本差异，可能迫使我们重新设计算法以实质性地移植到Hadoop？

11 scalability apache-hadoop map-reduce mongodb

3

哪个更快：大型JSON数据集上的PostgreSQL vs MongoDB？

我有一个大型数据集，其中有9m个JSON对象，每个对象约300个字节。它们是来自链接聚合器的帖子：基本上是链接（URL，标题和作者ID）和评论（文本和作者ID）+元数据。它们很可能是表中的关系记录，但事实是它们具有一个数组字段，其ID指向子记录。什么样的实现看起来更可靠？ PostgreSQL数据库上的JSON对象（只有一个大表且只有一列，即JSON对象） MongoDB上的JSON对象将JSON对象分解为列，并在PostgreSQL上使用数组我想最大程度地提高联接的性能，因此我可以对数据进行按摩和探索，直到找到有趣的分析为止，这时我认为将数据转换为特定于每种分析的形式会更好。

10 data-mining bigdata databases sql mongodb

Questions tagged «mongodb»