Questions tagged «hadoop»

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。其他各种开源项目(例如Apache Hive)也将Apache Hadoop用作持久层。

2
Hadoop截断/计数器名称不一致
现在,我有一个Hadoop作业,该作业创建了一个非常知名的计数器。 例如,以下之一:stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits。该计数器在Web界面和getName()方法调用上被截断。我发现Hadoop在计数器最大名称上有限制,此设置IDmapreduce.job.counters.counter.name.max用于配置此限制。所以我将其增加到500,Web界面现在显示完整的计数器名称。但是getName()计数器的仍然返回截断的名称。 有人可以解释一下还是指出我的错误?谢谢。 编辑1 我的Hadoop服务器配置由具有HDFS,YARN并在其上进行map-reduce的单个服务器组成。在map-reduce期间,有一些计数器增量,并且在作业完成之后,ToolRunner我使用来获取计数器org.apache.hadoop.mapreduce.Job#getCounters。 编辑2 Hadoop版本如下: Hadoop 2.6.0-cdh5.8.0 Subversion http://github.com/cloudera/hadoop -r 042da8b868a212c843bcbf3594519dd26e816e79 Compiled by jenkins on 2016-07-12T22:55Z Compiled with protoc 2.5.0 From source with checksum 2b6c319ecc19f118d6e1c823175717b5 This command was run using /usr/lib/hadoop/hadoop-common-2.6.0-cdh5.8.0.jar 我进行了一些其他调查,看来此问题描述了与我类似的情况。但这很令人困惑,因为我能够增加计数器的数量,但不能增加计数器名称的长度... 编辑3 今天,我花了很多时间调试Hadoop的内部组件。一些有趣的东西: org.apache.hadoop.mapred.ClientServiceDelegate#getJobCounters方法从TRUNCATED名称和FULL显示名称的yarn返回一堆计数器。 无法调试地图和化简器本身,但在记录的帮助下,该org.apache.hadoop.mapreduce.Counter#getName方法似乎在化简器执行期间正常工作。
79 java  hadoop  mapreduce  yarn 

9
如何从命令提示符下检查ZooKeeper是否正在运行或启动?
我探索了几种设置kafka的方法,并且我知道Zookeeper必须启动并运行才能启动kafka。 我想知道如何找到以下内容。 1)我的zookeeper实例的主机名和端口---我检查了zoo.cfg,我只能找到ClientPort而不是主机名,主机名将是我的盒子的主机名吗? 2)检查ZooKeeper是否已启动并正在运行---我试图做一个ps -ef | grep "zoo"我什么都找不到的事情。可能是我使用了错误的关键字进行搜索?? 任何帮助将非常感激?


10
减少阶段后合并输出文件
在mapreduce中,每个化简任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与化简任务关联的分区ID。难道的map / reduce合并这些文件?如果是,怎么办?
75 hadoop  mapreduce 

12
使用Eclipse / Maven构建Hadoop-缺少工件jdk.tools:jdk.tools:jar:1.6
我正在尝试在eclipse 3.81,m2e插件的maven项目中从cdh4 maven repo导入cloudera的org.apache.hadoop:hadoop-client:2.0.0-cdh4.0.0 ,使用在Win7上使用oracle jdk 1.7.0_05的Eclipse Maven项目 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.0.0-cdh4.0.0</version> </dependency> 但是,出现以下错误: The container 'Maven Dependencies' references non existing library 'C:\Users\MyUserId\.m2\repository\jdk\tools\jdk.tools\1.6\jdk.tools-1.6.jar' 更具体地说,maven指出缺少以下工件 Missing artifact jdk.tools:jdk.tools:jar:1.6 如何解决呢?


6
集成测试Hive职位
我正在尝试使用Hive Thrift和JDBC接口编写不平凡的Hive作业,并且在设置像样的JUnit测试方面遇到困难。所谓“平凡”,是指该工作至少在一个MapReduce阶段完成,而不是仅与元存储打交道。 该测试应启动Hive服务器,将一些数据加载到表中,对该表运行一些非平凡的查询,然后检查结果。 我已经根据Spring参考连接了Spring上下文。但是,该作业在MapReduce阶段失败,抱怨说不存在Hadoop二进制文件: java.io.IOException:无法运行程序“ / usr / bin / hadoop”(在目录“ / Users / yoni / opower / workspace / intellij_project_root”中):error = 2,没有这样的文件或目录 问题是Hive服务器正在内存中运行,但是要运行Hive则要依靠Hive的本地安装。为了使我的项目自成一体,我需要嵌入Hive服务,包括HDFS和MapReduce集群。我尝试使用相同的Spring方法启动Hive服务器,并将其指向MiniDFSCluster和MiniMRCluster,类似于Hive QTestUtil源代码和HBaseTestUtility中使用的模式。但是,我无法使其正常工作。 在尝试破坏Hive集成测试三天后,我想我会问社区: 您如何建议我对Hive作业进行集成测试? 您是否有一个可用的JUnit示例,用于使用内存HDFS,MR和Hive实例集成测试Hive作业? 我看过的其他资源: Hive单元测试教程 Spring Hive示例 编辑:我完全知道,通过对Hadoop集群(本地或远程)进行处理,可以对全栈Hive实例运行集成测试。如上所述,问题在于这不是有效测试Hive工作流程的可行解决方案。

3
Hadoop中Amazon S3和S3n之间的差异
当我将Hadoop集群连接到Amazon存储并将文件下载到HDFS时,我发现s3://它不起作用。在Internet上寻求帮助时,我可以使用S3n。当我使用S3n它的时候。我不明白,使用之间的区别S3,并S3n与我的Hadoop集群,有人能解释一下吗?
71 hadoop  amazon-s3  hdfs 


14
HDFS错误:只能复制到0个节点,而不是1个
我在EC2中创建了一个Ubuntu单节点hadoop集群。 在EC2机器上测试将简单文件上传到hdfs的方法有效,但在EC2以外的机器上无法进行测试。 我可以从远程计算机通过Web界面浏览文件系统,它显示了一个报告为服务中的datanode。已经从0到60000(!)的安全性打开了所有tcp端口,所以我认为不是那样。 我得到错误 java.io.IOException: File /user/ubuntu/pies could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1448) at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:690) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.ipc.WritableRpcEngine$Server.call(WritableRpcEngine.java:342) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1350) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1346) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1344) at org.apache.hadoop.ipc.Client.call(Client.java:905) at org.apache.hadoop.ipc.WritableRpcEngine$Invoker.invoke(WritableRpcEngine.java:198) at …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.