Questions tagged «mapreduce»

MapReduce是一种使用大量节点处理某些类型可分配问题的大型数据集的算法

10
减少阶段后合并输出文件
在mapreduce中,每个化简任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与化简任务关联的分区ID。难道的map / reduce合并这些文件?如果是,怎么办?
75 hadoop  mapreduce 

3
MongoDB存储过程等效
我有一个包含商店列表的大型CSV文件,其中一个字段是ZipCode。我有一个名为ZipCodes的单独的MongoDB数据库,该数据库存储任何给定邮政编码的纬度和经度。 在SQL Server中,我将执行一个称为InsertStore的存储过程,该过程将对ZipCodes表进行查找以获取相应的纬度和经度,并将数据插入到Stores表中。 为此,是否有类似于MongoDB中存储过程的概念?基本上,对于每个插入,我需要查找该存储的纬度和经度,并保存它们。 我对Map / Reduce的概念不太熟悉,但这是否有意义?谢谢!

6
集成测试Hive职位
我正在尝试使用Hive Thrift和JDBC接口编写不平凡的Hive作业,并且在设置像样的JUnit测试方面遇到困难。所谓“平凡”,是指该工作至少在一个MapReduce阶段完成,而不是仅与元存储打交道。 该测试应启动Hive服务器,将一些数据加载到表中,对该表运行一些非平凡的查询,然后检查结果。 我已经根据Spring参考连接了Spring上下文。但是,该作业在MapReduce阶段失败,抱怨说不存在Hadoop二进制文件: java.io.IOException:无法运行程序“ / usr / bin / hadoop”(在目录“ / Users / yoni / opower / workspace / intellij_project_root”中):error = 2,没有这样的文件或目录 问题是Hive服务器正在内存中运行,但是要运行Hive则要依靠Hive的本地安装。为了使我的项目自成一体,我需要嵌入Hive服务,包括HDFS和MapReduce集群。我尝试使用相同的Spring方法启动Hive服务器,并将其指向MiniDFSCluster和MiniMRCluster,类似于Hive QTestUtil源代码和HBaseTestUtility中使用的模式。但是,我无法使其正常工作。 在尝试破坏Hive集成测试三天后,我想我会问社区: 您如何建议我对Hive作业进行集成测试? 您是否有一个可用的JUnit示例,用于使用内存HDFS,MR和Hive实例集成测试Hive作业? 我看过的其他资源: Hive单元测试教程 Spring Hive示例 编辑:我完全知道,通过对Hadoop集群(本地或远程)进行处理,可以对全栈Hive实例运行集成测试。如上所述,问题在于这不是有效测试Hive工作流程的可行解决方案。

13
计算大文件中的行数
我通常使用大约20 Gb大小的文本文件,并且发现自己经常对给定文件中的行数进行计数。 我现在要做的就是 cat fname | wc -l,而且需要很长时间。有什么解决方案会更快吗? 我在安装了Hadoop的高性能集群中工作。我想知道地图缩小方法是否有帮助。 我希望该解决方案像解决方案一样简单,只需一条线即可wc -l,但不确定其可行性。 有任何想法吗?
71 linux  mapreduce 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.