程序设计 hadoop

2

现在，我有一个Hadoop作业，该作业创建了一个非常知名的计数器。例如，以下之一：stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits。该计数器在Web界面和getName()方法调用上被截断。我发现Hadoop在计数器最大名称上有限制，此设置IDmapreduce.job.counters.counter.name.max用于配置此限制。所以我将其增加到500，Web界面现在显示完整的计数器名称。但是getName()计数器的仍然返回截断的名称。有人可以解释一下还是指出我的错误？谢谢。编辑1 我的Hadoop服务器配置由具有HDFS，YARN并在其上进行map-reduce的单个服务器组成。在map-reduce期间，有一些计数器增量，并且在作业完成之后，ToolRunner我使用来获取计数器org.apache.hadoop.mapreduce.Job#getCounters。编辑2 Hadoop版本如下： Hadoop 2.6.0-cdh5.8.0 Subversion http://github.com/cloudera/hadoop -r 042da8b868a212c843bcbf3594519dd26e816e79 Compiled by jenkins on 2016-07-12T22:55Z Compiled with protoc 2.5.0 From source with checksum 2b6c319ecc19f118d6e1c823175717b5 This command was run using /usr/lib/hadoop/hadoop-common-2.6.0-cdh5.8.0.jar 我进行了一些其他调查，看来此问题描述了与我类似的情况。但这很令人困惑，因为我能够增加计数器的数量，但不能增加计数器名称的长度... 编辑3 今天，我花了很多时间调试Hadoop的内部组件。一些有趣的东西： org.apache.hadoop.mapred.ClientServiceDelegate#getJobCounters方法从TRUNCATED名称和FULL显示名称的yarn返回一堆计数器。无法调试地图和化简器本身，但在记录的帮助下，该org.apache.hadoop.mapreduce.Counter#getName方法似乎在化简器执行期间正常工作。

79 java hadoop mapreduce yarn

9

如何从命令提示符下检查ZooKeeper是否正在运行或启动？

我探索了几种设置kafka的方法，并且我知道Zookeeper必须启动并运行才能启动kafka。我想知道如何找到以下内容。 1）我的zookeeper实例的主机名和端口---我检查了zoo.cfg，我只能找到ClientPort而不是主机名，主机名将是我的盒子的主机名吗？ 2）检查ZooKeeper是否已启动并正在运行---我试图做一个ps -ef | grep "zoo"我什么都找不到的事情。可能是我使用了错误的关键字进行搜索？？任何帮助将非常感激？

77 hadoop config apache-zookeeper apache-kafka ps

2

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism？我尝试将它们都设置为SparkSQL，但是第二阶段的任务编号始终为200。

76 performance apache-spark hadoop apache-spark-sql

10

减少阶段后合并输出文件

在mapreduce中，每个化简任务将其输出写入名为part-r-nnnnn的文件，其中nnnnn是与化简任务关联的分区ID。难道的map / reduce合并这些文件？如果是，怎么办？

75 hadoop mapreduce

12

使用Eclipse / Maven构建Hadoop-缺少工件jdk.tools:jdk.tools:jar:1.6

我正在尝试在eclipse 3.81，m2e插件的maven项目中从cdh4 maven repo导入cloudera的org.apache.hadoop：hadoop-client：2.0.0-cdh4.0.0 ，使用在Win7上使用oracle jdk 1.7.0_05的Eclipse Maven项目 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.0.0-cdh4.0.0</version> </dependency> 但是，出现以下错误： The container 'Maven Dependencies' references non existing library 'C:\Users\MyUserId\.m2\repository\jdk\tools\jdk.tools\1.6\jdk.tools-1.6.jar' 更具体地说，maven指出缺少以下工件 Missing artifact jdk.tools:jdk.tools:jar:1.6 如何解决呢？

74 java maven maven-2 hadoop cloudera

12

Hive在HDFS中将文件存储在哪里？

我想知道如何找到Hive表与它们所代表的实际HDFS文件（或目录）之间的映射。我需要直接访问表文件。 Hive在HDFS中将文件存储在哪里？

72 hadoop hive hdfs

6

集成测试Hive职位

我正在尝试使用Hive Thrift和JDBC接口编写不平凡的Hive作业，并且在设置像样的JUnit测试方面遇到困难。所谓“平凡”，是指该工作至少在一个MapReduce阶段完成，而不是仅与元存储打交道。该测试应启动Hive服务器，将一些数据加载到表中，对该表运行一些非平凡的查询，然后检查结果。我已经根据Spring参考连接了Spring上下文。但是，该作业在MapReduce阶段失败，抱怨说不存在Hadoop二进制文件： java.io.IOException：无法运行程序“ / usr / bin / hadoop”（在目录“ / Users / yoni / opower / workspace / intellij_project_root”中）：error = 2，没有这样的文件或目录问题是Hive服务器正在内存中运行，但是要运行Hive则要依靠Hive的本地安装。为了使我的项目自成一体，我需要嵌入Hive服务，包括HDFS和MapReduce集群。我尝试使用相同的Spring方法启动Hive服务器，并将其指向MiniDFSCluster和MiniMRCluster，类似于Hive QTestUtil源代码和HBaseTestUtility中使用的模式。但是，我无法使其正常工作。在尝试破坏Hive集成测试三天后，我想我会问社区：您如何建议我对Hive作业进行集成测试？您是否有一个可用的JUnit示例，用于使用内存HDFS，MR和Hive实例集成测试Hive作业？我看过的其他资源： Hive单元测试教程 Spring Hive示例编辑：我完全知道，通过对Hadoop集群（本地或远程）进行处理，可以对全栈Hive实例运行集成测试。如上所述，问题在于这不是有效测试Hive工作流程的可行解决方案。

71 java testing hadoop mapreduce hive

3

Hadoop中Amazon S3和S3n之间的差异

当我将Hadoop集群连接到Amazon存储并将文件下载到HDFS时，我发现s3://它不起作用。在Internet上寻求帮助时，我可以使用S3n。当我使用S3n它的时候。我不明白，使用之间的区别S3，并S3n与我的Hadoop集群，有人能解释一下吗？

71 hadoop amazon-s3 hdfs

7

在Hive中执行任何查询时，有什么方法可以获取列名以及输出？

在Hive中，当我们执行查询时（例如：），我们 select * from employee不会在输出中获得任何列名称（例如在RDBMS SQL中获得的名称，年龄，薪水），我们只会获得值。当执行任何查询时，有什么方法可以使列名与输出一起显示？

70 hadoop hive rdbms

14

HDFS错误：只能复制到0个节点，而不是1个

我在EC2中创建了一个Ubuntu单节点hadoop集群。在EC2机器上测试将简单文件上传到hdfs的方法有效，但在EC2以外的机器上无法进行测试。我可以从远程计算机通过Web界面浏览文件系统，它显示了一个报告为服务中的datanode。已经从0到60000（！）的安全性打开了所有tcp端口，所以我认为不是那样。我得到错误 java.io.IOException: File /user/ubuntu/pies could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1448) at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:690) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.ipc.WritableRpcEngine$Server.call(WritableRpcEngine.java:342) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1350) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1346) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1344) at org.apache.hadoop.ipc.Client.call(Client.java:905) at org.apache.hadoop.ipc.WritableRpcEngine$Invoker.invoke(WritableRpcEngine.java:198) at …

68 amazon-ec2 hadoop

Questions tagged «hadoop»