Questions tagged «hdfs»

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。HDFS创建数据块的多个副本,并将它们分布在整个集群的数据节点上,以实现可靠的功能,并在商品硬件上计算大量数据。

14
Spark-将CSV文件加载为DataFrame吗?
我想在Spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中 df.registerTempTable("table_name") 我努力了: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56) at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650) at …

3
与其他格式相比,实木复合地板格式的优缺点是什么?
Apache Parquet的特征是: 自我描述 柱状格式 语言无关 与Avro,Sequence Files,RC File等相比。我想要这些格式的概述。我已经读过:Impala如何与Hadoop文件格式一起使用,它提供了一些有关格式的见解,但是我想知道在每种格式中如何进行数据访问和数据存储。镶木地板比其他镶木地板有什么优势?
136 file  hadoop  hdfs  avro  parquet 


6
HBase与Hadoop / HDFS之间的区别
这是一个幼稚的问题,但是我是NoSQL范式的新手,对此了解不多。因此,如果有人可以帮助我清楚地了解HBase和Hadoop之间的区别,或者提供一些可以帮助我了解区别的指针。 到目前为止,我进行了一些研究和认证。据我了解,Hadoop提供了与HDFS中的原始数据块(文件)一起使用的框架,而HBase是Hadoop之上的数据库引擎,它基本上与结构化数据而非原始数据块一起工作。就像SQL一样,Hbase在HDFS上提供逻辑层。这是正确的吗? 请随时纠正我。 谢谢。
130 hadoop  nosql  hbase  hdfs  difference 

9
名称节点处于安全模式。无法离开
root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. 无法在HDFS中创建任何内容 我做了 root# bin/hadoop fs -safemode leave 但是显示 safemode: Unknown command 问题是什么? 解
122 hadoop  hdfs 

6
Hadoop流程记录如何跨块边界拆分?
根据 Hadoop - The Definitive Guide FileInputFormats定义的逻辑记录通常不能整齐地放入HDFS块中。例如,TextInputFormat的逻辑记录是行,这些行将经常跨越HDFS边界。这与程序的功能无关(例如,行不会丢失或断线),但是这是值得了解的,因为这确实意味着数据本地映射(即与它们在同一主机上运行的映射)输入数据)将执行一些远程读取。造成的轻微开销通常并不重要。 假设一条记录线分为两个块(b1和b2)。处理第一个块(b1)的映射器将注意到,最后一行没有EOL分隔符,并从下一个数据块(b2)中获取其余行。 处理第二个块(b2)的映射器如何确定第一条记录不完整,应从块(b2)中的第二条记录开始处理?
119 hadoop  split  mapreduce  block  hdfs 


6
“ hadoop fs” shell命令和“ hdfs dfs” shell命令之间有什么区别?
他们应该平等吗? 但是,为什么“ hadoop fs”命令显示hdfs files而“ hdfs dfs”命令显示本地文件呢? 这是hadoop版本信息: Hadoop 2.0.0-mr1-cdh4.2.1子版本git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r由jenkins于2013年4月22日星期一10:48:26编译
109 hadoop  hdfs 



3
Hadoop中Amazon S3和S3n之间的差异
当我将Hadoop集群连接到Amazon存储并将文件下载到HDFS时,我发现s3://它不起作用。在Internet上寻求帮助时,我可以使用S3n。当我使用S3n它的时候。我不明白,使用之间的区别S3,并S3n与我的Hadoop集群,有人能解释一下吗?
71 hadoop  amazon-s3  hdfs 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.