Questions tagged «hadoop»

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。其他各种开源项目(例如Apache Hive)也将Apache Hadoop用作持久层。

4
MapReduce排序算法如何工作?
Terasort基准是用于演示MapReduce功能的主要示例之一。我在理解MapReduce环境中使用的排序算法的基础时遇到了麻烦。 对我而言,排序仅涉及确定元素相对于所有其他元素的相对位置。因此,分类涉及将“所有”与“所有”进行比较。您的平均排序算法(快速,冒泡,...)简单地以一种聪明的方式做到了。 在我看来,将数据集分为多个部分意味着您可以对单个部分进行排序,然后仍然必须将这些部分集成到“完整的”完全排序的数据集中。鉴于TB数据集分布在数千个系统中,我希望这是一项艰巨的任务。 那么这到底是怎么做的呢?该MapReduce排序算法如何工作? 感谢您帮助我理解。

6
“ hadoop fs” shell命令和“ hdfs dfs” shell命令之间有什么区别?
他们应该平等吗? 但是,为什么“ hadoop fs”命令显示hdfs files而“ hdfs dfs”命令显示本地文件呢? 这是hadoop版本信息: Hadoop 2.0.0-mr1-cdh4.2.1子版本git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r由jenkins于2013年4月22日星期一10:48:26编译
109 hadoop  hdfs 

15
无法在hadoop二进制路径中找到winutils二进制文件
启动最新的hadoop-2.2版本的namenode时,出现以下错误。我在hadoop bin文件夹中找不到winutils exe文件。我尝试了以下命令 $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293) at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76) at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager.main(ResourceManager.java:863)
108 hadoop 


15
是否有一个等效于Apache Hadoop的.NET?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 4年前关闭。 改善这个问题 因此,我一直对Hadoop怀有浓厚的兴趣,老实说,我很着迷,事情并没有变得那么酷。 我唯一的小问题是我是C#开发人员,并且使用Java。 我并不是在不那么了解Java,而是在寻找包含Google MapReduce方法的Hadoop.net或NHadoop或.NET项目。有人知道吗?
98 c#  .net  hadoop  mapreduce 

18
hadoop方案无文件系统:文件
我正在尝试NaiveBayesClassifer使用hadoop 运行一个简单的程序,出现此错误 Exception in thread "main" java.io.IOException: No FileSystem for scheme: file at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180) at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175) at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100) 代码: Configuration configuration = new Configuration(); NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);// error in this line.. modelPath指向NaiveBayes.bin文件,并且配置对象正在打印-Configuration: core-default.xml, core-site.xml 我认为是因为罐子,有什么想法吗?
96 java  hadoop  io 


7
Avro与镶木地板
我计划为我的hadoop相关项目使用hadoop文件格式之一。我了解镶木地板对于基于列的查询和avro进行全面扫描或需要所有列数据都是有效的! 在继续选择一种文件格式之前,我想了解一种相对于另一种的缺点/缺点。有人可以简单地向我解释吗?
91 hadoop  avro  parquet 

25
如何从命令提示符处了解Hive和Hadoop版本?
如何从命令提示符下找到正在使用的Hive版本。以下是详细信息- 我正在使用Putty连接到配置单元表并访问表中的记录。因此,我要做的是-打开Putty并输入主机名-leo-ingesting.vip.name.com然后单击Open。然后输入用户名和密码,然后输入一些命令以访问Hive sql。以下是我的工作清单 $ bash bash-3.00$ hive Hive history file=/tmp/rkost/hive_job_log_rkost_201207010451_1212680168.txt hive> set mapred.job.queue.name=hdmi-technology; hive> select * from table LIMIT 1; 那么从命令提示符中可以找到我正在使用的配置单元版本和Hadoop版本的任何方法吗?
87 hadoop  hive 

5
Parquet vs ORC vs Snappy的ORC
我正在对Hive可用的存储格式进行一些测试,并使用Parquet和ORC作为主要选项。我将ORC包含一次默认压缩,一次包含Snappy。 我已经阅读了许多文档,这些文档指出Parquet在时间/空间复杂度上比ORC更好,但是我的测试与我通过的文档相反。 跟随我的数据的一些细节。 Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB 就我桌子的压缩而言,实木复合地板最糟糕。 我对以上表格的测试得出以下结果。 行计数操作 Text Format Cumulative CPU - 123.33 sec Parquet Format Cumulative CPU - 204.92 sec ORC Format Cumulative …
87 hadoop  hive  parquet  snappy  orc 

28
连接到主机localhost端口22:连接被拒绝
在本地计算机上安装hadoop时,出现以下错误 ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1: Connecting to localhost [127.0.0.1] port 22. debug1: connect to address 127.0.0.1 port 22: Connection refused ssh: connect to host localhost port 22: Connection refused 有什么可以比更改端口号帮助我解决此错误?
86 linux  hadoop  ssh 

8
容器运行超出内存限制
在Hadoop v1中,我为每个7个映射器和reducer插槽分配了1GB的大小,我的映射器和reducer运行良好。我的机器有8G内存,8个处理器。现在使用YARN,当在同一台计算机上运行同一应用程序时,出现容器错误。默认情况下,我有以下设置: <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> 它给了我错误: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. 然后,我尝试在mapred-site.xml中设置内存限制: <property> <name>mapreduce.map.memory.mb</name> <value>4096</value> </property> <property> <name>mapreduce.reduce.memory.mb</name> …
85 hadoop  mapreduce  yarn  mrv2 

3
Hbase与Cassandra的大规模数据处理
从目前的情况来看,这个问题不适合我们的问答形式。我们希望答案能得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 在对大规模数据存储解决方案进行研究之后,我差点就进入了Cassandra。但其普遍认为,Hbase是大规模数据处理和分析的更好解决方案。 尽管两者都是相同的键/值存储并且都可以运行(最近才是Cassandra),但是Hadoop层却使Hadoop在需要对大数据进行处理/分析时成为更好的选择。 我还在 http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/ 但我仍在寻找Hbase的具体优势。 虽然我对Cassandra更为确信,因为它具有添加节点和无缝复制的简便性,并且没有故障点功能。而且它还保留了二级索引功能,因此是一个不错的选择。


18
如何将HiveQL查询的结果输出到CSV?
我们希望将Hive查询的结果放入CSV文件。我认为该命令应如下所示: insert overwrite directory '/home/output.csv' select books from table; 当我运行它时,它说成功完成了,但是我永远找不到该文件。如何找到该文件,或者应该以其他方式提取数据?
79 database  hadoop  hive  hiveql 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.