程序设计 mapreduce

10

在mapreduce中，每个化简任务将其输出写入名为part-r-nnnnn的文件，其中nnnnn是与化简任务关联的分区ID。难道的map / reduce合并这些文件？如果是，怎么办？

75 hadoop mapreduce

3

我有一个包含商店列表的大型CSV文件，其中一个字段是ZipCode。我有一个名为ZipCodes的单独的MongoDB数据库，该数据库存储任何给定邮政编码的纬度和经度。在SQL Server中，我将执行一个称为InsertStore的存储过程，该过程将对ZipCodes表进行查找以获取相应的纬度和经度，并将数据插入到Stores表中。为此，是否有类似于MongoDB中存储过程的概念？基本上，对于每个插入，我需要查找该存储的纬度和经度，并保存它们。我对Map / Reduce的概念不太熟悉，但这是否有意义？谢谢！

73 stored-procedures mongodb geolocation mapreduce

6

集成测试Hive职位

我正在尝试使用Hive Thrift和JDBC接口编写不平凡的Hive作业，并且在设置像样的JUnit测试方面遇到困难。所谓“平凡”，是指该工作至少在一个MapReduce阶段完成，而不是仅与元存储打交道。该测试应启动Hive服务器，将一些数据加载到表中，对该表运行一些非平凡的查询，然后检查结果。我已经根据Spring参考连接了Spring上下文。但是，该作业在MapReduce阶段失败，抱怨说不存在Hadoop二进制文件： java.io.IOException：无法运行程序“ / usr / bin / hadoop”（在目录“ / Users / yoni / opower / workspace / intellij_project_root”中）：error = 2，没有这样的文件或目录问题是Hive服务器正在内存中运行，但是要运行Hive则要依靠Hive的本地安装。为了使我的项目自成一体，我需要嵌入Hive服务，包括HDFS和MapReduce集群。我尝试使用相同的Spring方法启动Hive服务器，并将其指向MiniDFSCluster和MiniMRCluster，类似于Hive QTestUtil源代码和HBaseTestUtility中使用的模式。但是，我无法使其正常工作。在尝试破坏Hive集成测试三天后，我想我会问社区：您如何建议我对Hive作业进行集成测试？您是否有一个可用的JUnit示例，用于使用内存HDFS，MR和Hive实例集成测试Hive作业？我看过的其他资源： Hive单元测试教程 Spring Hive示例编辑：我完全知道，通过对Hadoop集群（本地或远程）进行处理，可以对全栈Hive实例运行集成测试。如上所述，问题在于这不是有效测试Hive工作流程的可行解决方案。

71 java testing hadoop mapreduce hive

13

计算大文件中的行数

我通常使用大约20 Gb大小的文本文件，并且发现自己经常对给定文件中的行数进行计数。我现在要做的就是 cat fname | wc -l，而且需要很长时间。有什么解决方案会更快吗？我在安装了Hadoop的高性能集群中工作。我想知道地图缩小方法是否有帮助。我希望该解决方案像解决方案一样简单，只需一条线即可wc -l，但不确定其可行性。有任何想法吗？

71 linux mapreduce

Questions tagged «mapreduce»