Questions tagged «hadoop»

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。其他各种开源项目(例如Apache Hive)也将Apache Hadoop用作持久层。

21
Hadoop“无法为您的平台加载本地hadoop库”警告
我目前正在运行CentO的服务器上配置hadoop 。运行start-dfs.sh或时stop-dfs.sh,出现以下错误: WARN util.NativeCodeLoader:无法为您的平台加载本地hadoop库...在适当情况下使用内置java类 我正在运行Hadoop 2.2.0。 在线进行搜索会显示以下链接:http : //balanceandbreath.blogspot.ca/2013/01/utilnativecodeloader-unable-to-load.html 但是,/native/hadoop 2.x 上目录的内容似乎有所不同,因此我不确定该怎么办。 我还在以下位置添加了这两个环境变量hadoop-env.sh: export HADOOP_OPTS =“ $ HADOOP_OPTS -Djava.library.path = / usr / local / hadoop / lib /” 导出HADOOP_COMMON_LIB_NATIVE_DIR =“ / usr / local / hadoop / lib / native /” 有任何想法吗?

19
Pig和Hive之间的区别?为什么两者都有?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引文回答。 4年前关闭。 改善这个问题 我的背景-在Hadoop世界中工作了4周。使用Cloudera的Hadoop VM涉猎Hive,Pig和Hadoop。阅读了Google关于Map-Reduce和GFS的论文(PDF链接)。 我明白那个- Pig的语言Pig Latin是从(类似于程序员的思维方式)SQL到声明式编程风格的转变,而Hive的查询语言与SQL非常相似。 Pig位于Hadoop之上,原则上也可以位于Dryad之上。我可能错了,但是Hive与Hadoop紧密相连。 Pig Latin和Hive命令都可以编译为Map和Reduce作业。 我的问题-当一个人(例如Pig)可以达到目的时,同时拥有这两个目标是什么?仅仅是因为Pig被Yahoo传播了!和Hive by Facebook?
256 hadoop  hive  apache-pig 

8
Apache Spark:内核数量与执行程序数量
我试图了解在YARN上运行Spark作业时内核数与执行程序数之间的关系。 测试环境如下: 数据节点数:3 数据节点机器规格: CPU:Core i7-4790(内核数:4,线程数:8) 内存:32GB(8GB x 4) 硬盘:8TB(2TB x 4) 网络:1Gb Spark版本:1.0.0 Hadoop版本:2.4.0(Hortonworks HDP 2.1) Spark作业流程:sc.textFile->过滤器->映射->过滤器-> mapToPair-> reduceByKey->映射-> saveAsTextFile 输入数据 类型:单个文本文件 大小:165GB 线数:454,568,833 输出量 第二个过滤器之后的行数:310,640,717 结果文件的行数:99,848,268 结果文件的大小:41GB 该作业使用以下配置运行: --master yarn-client --executor-memory 19G --executor-cores 7 --num-executors 3 (每个数据节点的执行程序,使用的内核数最多) --master yarn-client --executor-memory 19G --executor-cores 4 --num-executors 3 (减少的内核数) --master yarn-client …


15
如何在Spark中关闭INFO日志记录?
我使用AWS EC2指南安装了Spark,并且可以使用bin/pyspark脚本正常启动该程序以获取Spark 提示,并且还可以成功执行快速入门Quide。 但是,我无法终生解决如何INFO在每个命令后停止所有冗长的日志记录。 我在下面的代码(注释掉,设置为OFF)中的几乎所有可能的情况下都尝试了log4j.properties该conf文件夹,该文件夹位于我从中以及在每个节点上启动应用程序的文件夹中,没有任何反应。INFO执行每个语句后,我仍然可以打印日志记录语句。 我对应该如何工作感到非常困惑。 #Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO 这是我使用时的完整类路径SPARK_PRINT_LAUNCH_COMMAND: Spark命令:/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp:/root/spark-1.0.1-bin-hadoop2/conf:/root/spark-1.0.1 -bin-hadoop2 / conf:/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar:/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize = 128m -Djava.library.path …

14
Spark-将CSV文件加载为DataFrame吗?
我想在Spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中 df.registerTempTable("table_name") 我努力了: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56) at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650) at …

3
与其他格式相比,实木复合地板格式的优缺点是什么?
Apache Parquet的特征是: 自我描述 柱状格式 语言无关 与Avro,Sequence Files,RC File等相比。我想要这些格式的概述。我已经读过:Impala如何与Hadoop文件格式一起使用,它提供了一些有关格式的见解,但是我想知道在每种格式中如何进行数据访问和数据存储。镶木地板比其他镶木地板有什么优势?
136 file  hadoop  hdfs  avro  parquet 


6
HBase与Hadoop / HDFS之间的区别
这是一个幼稚的问题,但是我是NoSQL范式的新手,对此了解不多。因此,如果有人可以帮助我清楚地了解HBase和Hadoop之间的区别,或者提供一些可以帮助我了解区别的指针。 到目前为止,我进行了一些研究和认证。据我了解,Hadoop提供了与HDFS中的原始数据块(文件)一起使用的框架,而HBase是Hadoop之上的数据库引擎,它基本上与结构化数据而非原始数据块一起工作。就像SQL一样,Hbase在HDFS上提供逻辑层。这是正确的吗? 请随时纠正我。 谢谢。
130 hadoop  nosql  hbase  hdfs  difference 


13
在Hadoop中链接多个MapReduce作业
在许多应用MapReduce的现实情况中,最终的算法最终是几个MapReduce步骤。 即Map1,Reduce1,Map2,Reduce2等。 因此,您具有来自上一个reduce的输出,该输出将作为下一个映射的输入。 一旦管道成功完成,您通常就不想保留中间数据。另外,由于此中间数据​​通常是某种数据结构(例如“映射”或“集合”),因此您不想在写入和读取这些键值对时花费太多精力。 在Hadoop中推荐这样做的推荐方式是什么? 是否有一个(简单的)示例显示如何以正确的方式(包括随后的清理)处理此中间数据​​?
124 hadoop  mapreduce 

9
名称节点处于安全模式。无法离开
root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. 无法在HDFS中创建任何内容 我做了 root# bin/hadoop fs -safemode leave 但是显示 safemode: Unknown command 问题是什么? 解
122 hadoop  hdfs 

6
Hadoop流程记录如何跨块边界拆分?
根据 Hadoop - The Definitive Guide FileInputFormats定义的逻辑记录通常不能整齐地放入HDFS块中。例如,TextInputFormat的逻辑记录是行,这些行将经常跨越HDFS边界。这与程序的功能无关(例如,行不会丢失或断线),但是这是值得了解的,因为这确实意味着数据本地映射(即与它们在同一主机上运行的映射)输入数据)将执行一些远程读取。造成的轻微开销通常并不重要。 假设一条记录线分为两个块(b1和b2)。处理第一个块(b1)的映射器将注意到,最后一行没有EOL分隔符,并从下一个数据块(b2)中获取其余行。 处理第二个块(b2)的映射器如何确定第一条记录不完整,应从块(b2)中的第二条记录开始处理?
119 hadoop  split  mapreduce  block  hdfs 


18
Hive内部表和外部表之间的区别?
谁能告诉我Hive的外部表和内部表之间的区别。我知道放桌子时会有所不同。我不明白您所说的数据是什么,内部会删除元数据,而在外部表中只会删除元数据。谁能解释我的节点。
110 hadoop  hive  hiveql 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.