Questions tagged «hive»

Hive是建立在Hadoop之上的数据库,可简化数据汇总,即席查询以及对存储在Hadoop兼容分布式文件系统中的大型数据集的分析。Hive提供了一种将结构投影到此数据上并使用类似于SQL的语言称为HiveQL来查询数据的机制。

19
Pig和Hive之间的区别?为什么两者都有?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引文回答。 4年前关闭。 改善这个问题 我的背景-在Hadoop世界中工作了4周。使用Cloudera的Hadoop VM涉猎Hive,Pig和Hadoop。阅读了Google关于Map-Reduce和GFS的论文(PDF链接)。 我明白那个- Pig的语言Pig Latin是从(类似于程序员的思维方式)SQL到声明式编程风格的转变,而Hive的查询语言与SQL非常相似。 Pig位于Hadoop之上,原则上也可以位于Dryad之上。我可能错了,但是Hive与Hadoop紧密相连。 Pig Latin和Hive命令都可以编译为Map和Reduce作业。 我的问题-当一个人(例如Pig)可以达到目的时,同时拥有这两个目标是什么?仅仅是因为Pig被Yahoo传播了!和Hive by Facebook?
256 hadoop  hive  apache-pig 



18
Hive内部表和外部表之间的区别?
谁能告诉我Hive的外部表和内部表之间的区别。我知道放桌子时会有所不同。我不明白您所说的数据是什么,内部会删除元数据,而在外部表中只会删除元数据。谁能解释我的节点。
110 hadoop  hive  hiveql 

9
如何在HIVE脚本中设置变量
我正在寻找SET varname = valueHive QL中的SQL等效项 我知道我可以做这样的事情: SET CURRENT_DATE = '2012-09-16'; SELECT * FROM foo WHERE day >= @CURRENT_DATE 但是然后我得到这个错误: 此处不支持字符“ @”
102 hive  hiveql 


25
如何从命令提示符处了解Hive和Hadoop版本?
如何从命令提示符下找到正在使用的Hive版本。以下是详细信息- 我正在使用Putty连接到配置单元表并访问表中的记录。因此,我要做的是-打开Putty并输入主机名-leo-ingesting.vip.name.com然后单击Open。然后输入用户名和密码,然后输入一些命令以访问Hive sql。以下是我的工作清单 $ bash bash-3.00$ hive Hive history file=/tmp/rkost/hive_job_log_rkost_201207010451_1212680168.txt hive> set mapred.job.queue.name=hdmi-technology; hive> select * from table LIMIT 1; 那么从命令提示符中可以找到我正在使用的配置单元版本和Hadoop版本的任何方法吗?
87 hadoop  hive 

5
Parquet vs ORC vs Snappy的ORC
我正在对Hive可用的存储格式进行一些测试,并使用Parquet和ORC作为主要选项。我将ORC包含一次默认压缩,一次包含Snappy。 我已经阅读了许多文档,这些文档指出Parquet在时间/空间复杂度上比ORC更好,但是我的测试与我通过的文档相反。 跟随我的数据的一些细节。 Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB 就我桌子的压缩而言,实木复合地板最糟糕。 我对以上表格的测试得出以下结果。 行计数操作 Text Format Cumulative CPU - 123.33 sec Parquet Format Cumulative CPU - 204.92 sec ORC Format Cumulative …
87 hadoop  hive  parquet  snappy  orc 


3
内联接和左半联接之间的区别
INNER JOIN和之间有什么区别LEFT SEMI JOIN? 在以下情况下,为什么我会得到两个不同的结果? 该INNER JOIN结果集是很多大。有人可以解释吗?我试图让其中的名称table_1仅出现在中table_2。 SELECT name FROM table_1 a INNER JOIN table_2 b ON a.name=b.name SELECT name FROM table_1 a LEFT SEMI JOIN table_2 b ON (a.name=b.name)
82 sql  hql  hive 

18
如何将HiveQL查询的结果输出到CSV?
我们希望将Hive查询的结果放入CSV文件。我认为该命令应如下所示: insert overwrite directory '/home/output.csv' select books from table; 当我运行它时,它说成功完成了,但是我永远找不到该文件。如何找到该文件,或者应该以其他方式提取数据?
79 database  hadoop  hive  hiveql 



6
集成测试Hive职位
我正在尝试使用Hive Thrift和JDBC接口编写不平凡的Hive作业,并且在设置像样的JUnit测试方面遇到困难。所谓“平凡”,是指该工作至少在一个MapReduce阶段完成,而不是仅与元存储打交道。 该测试应启动Hive服务器,将一些数据加载到表中,对该表运行一些非平凡的查询,然后检查结果。 我已经根据Spring参考连接了Spring上下文。但是,该作业在MapReduce阶段失败,抱怨说不存在Hadoop二进制文件: java.io.IOException:无法运行程序“ / usr / bin / hadoop”(在目录“ / Users / yoni / opower / workspace / intellij_project_root”中):error = 2,没有这样的文件或目录 问题是Hive服务器正在内存中运行,但是要运行Hive则要依靠Hive的本地安装。为了使我的项目自成一体,我需要嵌入Hive服务,包括HDFS和MapReduce集群。我尝试使用相同的Spring方法启动Hive服务器,并将其指向MiniDFSCluster和MiniMRCluster,类似于Hive QTestUtil源代码和HBaseTestUtility中使用的模式。但是,我无法使其正常工作。 在尝试破坏Hive集成测试三天后,我想我会问社区: 您如何建议我对Hive作业进行集成测试? 您是否有一个可用的JUnit示例,用于使用内存HDFS,MR和Hive实例集成测试Hive作业? 我看过的其他资源: Hive单元测试教程 Spring Hive示例 编辑:我完全知道,通过对Hadoop集群(本地或远程)进行处理,可以对全栈Hive实例运行集成测试。如上所述,问题在于这不是有效测试Hive工作流程的可行解决方案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.