程序设计 hadoop

21

我目前正在运行CentO的服务器上配置hadoop 。运行start-dfs.sh或时stop-dfs.sh，出现以下错误： WARN util.NativeCodeLoader：无法为您的平台加载本地hadoop库...在适当情况下使用内置java类我正在运行Hadoop 2.2.0。在线进行搜索会显示以下链接：http : //balanceandbreath.blogspot.ca/2013/01/utilnativecodeloader-unable-to-load.html 但是，/native/hadoop 2.x 上目录的内容似乎有所不同，因此我不确定该怎么办。我还在以下位置添加了这两个环境变量hadoop-env.sh： export HADOOP_OPTS =“ $ HADOOP_OPTS -Djava.library.path = / usr / local / hadoop / lib /” 导出HADOOP_COMMON_LIB_NATIVE_DIR =“ / usr / local / hadoop / lib / native /” 有任何想法吗？

269 java linux hadoop hadoop2 java.library.path

19

Pig和Hive之间的区别？为什么两者都有？[关闭]

已关闭。这个问题是基于观点的。它当前不接受答案。想改善这个问题吗？更新问题，以便通过编辑此帖子以事实和引文回答。 4年前关闭。改善这个问题我的背景-在Hadoop世界中工作了4周。使用Cloudera的Hadoop VM涉猎Hive，Pig和Hadoop。阅读了Google关于Map-Reduce和GFS的论文（PDF链接）。我明白那个- Pig的语言Pig Latin是从（类似于程序员的思维方式）SQL到声明式编程风格的转变，而Hive的查询语言与SQL非常相似。 Pig位于Hadoop之上，原则上也可以位于Dryad之上。我可能错了，但是Hive与Hadoop紧密相连。 Pig Latin和Hive命令都可以编译为Map和Reduce作业。我的问题-当一个人（例如Pig）可以达到目的时，同时拥有这两个目标是什么？仅仅是因为Pig被Yahoo传播了！和Hive by Facebook？

256 hadoop hive apache-pig

8

Apache Spark：内核数量与执行程序数量

我试图了解在YARN上运行Spark作业时内核数与执行程序数之间的关系。测试环境如下：数据节点数：3 数据节点机器规格： CPU：Core i7-4790（内核数：4，线程数：8）内存：32GB（8GB x 4）硬盘：8TB（2TB x 4）网络：1Gb Spark版本：1.0.0 Hadoop版本：2.4.0（Hortonworks HDP 2.1） Spark作业流程：sc.textFile->过滤器->映射->过滤器-> mapToPair-> reduceByKey->映射-> saveAsTextFile 输入数据类型：单个文本文件大小：165GB 线数：454,568,833 输出量第二个过滤器之后的行数：310,640,717 结果文件的行数：99,848,268 结果文件的大小：41GB 该作业使用以下配置运行： --master yarn-client --executor-memory 19G --executor-cores 7 --num-executors 3 （每个数据节点的执行程序，使用的内核数最多） --master yarn-client --executor-memory 19G --executor-cores 4 --num-executors 3 （减少的内核数） --master yarn-client …

192 hadoop apache-spark yarn

16

何时使用Hadoop，HBase，Hive和Pig？

使用Hadoop或HBase或Hive有什么好处什么？据我了解，HBase避免使用map-reduce，并且在HDFS之上具有面向列的存储。Hive是Hadoop和HBase的类似于sql的接口。我还想知道Hive与Pig的比较。

185 hadoop hbase hive apache-pig

15

如何在Spark中关闭INFO日志记录？

我使用AWS EC2指南安装了Spark，并且可以使用bin/pyspark脚本正常启动该程序以获取Spark 提示，并且还可以成功执行快速入门Quide。但是，我无法终生解决如何INFO在每个命令后停止所有冗长的日志记录。我在下面的代码（注释掉，设置为OFF）中的几乎所有可能的情况下都尝试了log4j.properties该conf文件夹，该文件夹位于我从中以及在每个节点上启动应用程序的文件夹中，没有任何反应。INFO执行每个语句后，我仍然可以打印日志记录语句。我对应该如何工作感到非常困惑。 #Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO 这是我使用时的完整类路径SPARK_PRINT_LAUNCH_COMMAND： Spark命令：/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp：/root/spark-1.0.1-bin-hadoop2/conf：/root/spark-1.0.1 -bin-hadoop2 / conf：/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar：/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX：MaxPermSize = 128m -Djava.library.path …

143 python scala apache-spark hadoop pyspark

14

Spark-将CSV文件加载为DataFrame吗？

我想在Spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中 df.registerTempTable("table_name") 我努力了： scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误： java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56) at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650) at …

140 scala apache-spark hadoop apache-spark-sql hdfs

3

与其他格式相比，实木复合地板格式的优缺点是什么？

Apache Parquet的特征是：自我描述柱状格式语言无关与Avro，Sequence Files，RC File等相比。我想要这些格式的概述。我已经读过：Impala如何与Hadoop文件格式一起使用，它提供了一些有关格式的见解，但是我想知道在每种格式中如何进行数据访问和数据存储。镶木地板比其他镶木地板有什么优势？

136 file hadoop hdfs avro parquet

8

如何将文件从HDFS复制到本地文件系统

如何将文件从HDFS复制到本地文件系统。文件下没有文件的物理位置，甚至目录也没有。我如何将它们移到我的本地进行进一步的验证。我已通过winscp尝试过。

135 hadoop copy hdfs

6

HBase与Hadoop / HDFS之间的区别

这是一个幼稚的问题，但是我是NoSQL范式的新手，对此了解不多。因此，如果有人可以帮助我清楚地了解HBase和Hadoop之间的区别，或者提供一些可以帮助我了解区别的指针。到目前为止，我进行了一些研究和认证。据我了解，Hadoop提供了与HDFS中的原始数据块（文件）一起使用的框架，而HBase是Hadoop之上的数据库引擎，它基本上与结构化数据而非原始数据块一起工作。就像SQL一样，Hbase在HDFS上提供逻辑层。这是正确的吗？请随时纠正我。谢谢。

130 hadoop nosql hbase hdfs difference

8

在Hive中对表进行分区和存储有什么区别？

我知道两者都是在表中的列上执行的，但是每个操作有何不同。

129 hadoop hive

13

在Hadoop中链接多个MapReduce作业

在许多应用MapReduce的现实情况中，最终的算法最终是几个MapReduce步骤。即Map1，Reduce1，Map2，Reduce2等。因此，您具有来自上一个reduce的输出，该输出将作为下一个映射的输入。一旦管道成功完成，您通常就不想保留中间数据。另外，由于此中间数据通常是某种数据结构（例如“映射”或“集合”），因此您不想在写入和读取这些键值对时花费太多精力。在Hadoop中推荐这样做的推荐方式是什么？是否有一个（简单的）示例显示如何以正确的方式（包括随后的清理）处理此中间数据？

124 hadoop mapreduce

9

名称节点处于安全模式。无法离开

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. 无法在HDFS中创建任何内容我做了 root# bin/hadoop fs -safemode leave 但是显示 safemode: Unknown command 问题是什么？解

122 hadoop hdfs

6

Hadoop流程记录如何跨块边界拆分？

根据 Hadoop - The Definitive Guide FileInputFormats定义的逻辑记录通常不能整齐地放入HDFS块中。例如，TextInputFormat的逻辑记录是行，这些行将经常跨越HDFS边界。这与程序的功能无关（例如，行不会丢失或断线），但是这是值得了解的，因为这确实意味着数据本地映射（即与它们在同一主机上运行的映射）输入数据）将执行一些远程读取。造成的轻微开销通常并不重要。假设一条记录线分为两个块（b1和b2）。处理第一个块（b1）的映射器将注意到，最后一行没有EOL分隔符，并从下一个数据块（b2）中获取其余行。处理第二个块（b2）的映射器如何确定第一条记录不完整，应从块（b2）中的第二条记录开始处理？

119 hadoop split mapreduce block hdfs

9

Map Reduce编程中的reducer的改组和排序阶段的目的是什么？

在Map Reduce编程中，reduce阶段具有改组，排序和reduce的子部分。排序是一项昂贵的事务。 Map Reduce编程中的reducer的改组和排序阶段的目的是什么？

113 sorting hadoop mapreduce hdfs shuffle

18

Hive内部表和外部表之间的区别？

谁能告诉我Hive的外部表和内部表之间的区别。我知道放桌子时会有所不同。我不明白您所说的数据是什么，内部会删除元数据，而在外部表中只会删除元数据。谁能解释我的节点。

110 hadoop hive hiveql

Questions tagged «hadoop»